Natural Language Processing for Interactive Speech Interfaces in Slovak): Spracovanie Prirodzeného Jazyka pre Interaktívne Rečové Rozhrania v Slovenčine

Abstrakt: V príspevku sú zhrnuté priebežné výsledky aplikovaného výskumu v oblasti spracovania prirodzeného jazyka v úlohách orientovaných na výskum a vývoj modulov rečových rozhraní medzi človekom a strojom, ktorý prebieha v Laboratóriu rečových a mobilných technológií na KEMT FEI TU v Košiciach. Zahrnutie hovorenej reči, ako najprirodzenejšieho komunikačného nástroja medzi l’ud’mi, má svoje nezastupitel’né miesto aj pri návrhu a vývoji interaktívnych rečových rozhraní. Pri prechode od rozpoznávania l’udskej reči k jej porozumeniu strojom je potom nevyhnutné vykonat’ aj dodatočnú analýzu textu po automatickom prepise. To zahŕňa aj proces transformácie textu po rozpoznaní na reprezentáciu určitého typu znalostí, ktorému dokáže stroj porozumiet’. Tento zložitý proces všeobecne pozostáva z tokenizácie, automatickej korekcie a dodatočnej morfologickej, syntaktickej a sémantickej analýzy textu. Nami navrhnuté moduly a výsledky automatického spracovania textu v slovenskom jazyku budú postupne predstavené v tomto príspevku.

[1]  Jan Hajic,et al.  The Czech Academic Corpus 2.0 Guide , 2008, Prague Bull. Math. Linguistics.

[2]  Martin Majliš,et al.  W2C – Web to Corpus – Corpora , 2011 .

[3]  Tomislav Stojanov,et al.  CroMo - Morphological Analysis for Standard Croatian and its Synchronic and Diachronic Dialects and Variants , 2008, FSMNLP.

[4]  Jozef Juhar,et al.  Recent advances in the statistical modeling of the Slovak language , 2014, Proceedings ELMAR-2014.

[5]  Adam Przepiórkowski,et al.  Recent Developments in the National Corpus of Polish , 2010, LREC.

[6]  Jozef Juhar,et al.  Semantic roles labeling system for Slovak sentences , 2014, 2014 5th IEEE Conference on Cognitive Infocommunications (CogInfoCom).

[7]  András Kornai,et al.  Creating Open Language Resources for Hungarian , 2004, LREC.

[8]  Marián Trnka,et al.  Advances in the Slovak Judicial Domain Dictation System , 2013, LTC.

[9]  Stanislav Ondas,et al.  Online natural language processing of the Slovak Language , 2014, 2014 5th IEEE Conference on Cognitive Infocommunications (CogInfoCom).

[10]  Daniel HLADEK,et al.  Unsupervised Spelling Correction for the Slovak Text , 2013 .

[11]  Jozef Juhár,et al.  Language Model Speaker Adaptation for Transcription of Slovak Parliament Proceedings , 2015, SPECOM.

[12]  Jozef Juhár,et al.  Classification of heterogeneous text data for robust domain-specific language modeling , 2014, EURASIP J. Audio Speech Music. Process..

[13]  Marián Trnka,et al.  SIMONA - the Slovak embodied conversational agent , 2014, Intell. Decis. Technol..

[14]  Jozef Juhar,et al.  ANALYSIS OF MORPH-BASED LANGUAGE MODELING AND SPEECH RECOGNITION IN SLOVAK , 2012 .

[15]  Jack Sidnell Describing Morphosyntax: A Guide for Field Linguists , 2000 .

[16]  J. Juhár,et al.  Development and Evaluation of the Spoken Dialogue System Based on the W 3 C Recommendations , 2012 .

[17]  Helmut Schmidt,et al.  Probabilistic part-of-speech tagging using decision trees , 1994 .

[18]  Adrian D. Thurston Parsing Computer Languages with an Automaton Compiled from a Single Regular Expression , 2006, CIAA.

[19]  D. Hladek,et al.  Dagger: The Slovak morphological classifier , 2012, Proceedings ELMAR-2012.

[20]  Kateřina Najbrtová Rozvoj jazykových technológií a zdrojov na Slovensku a vo svete (10 rokov Slovenského národného korpusu) , 2012 .

[21]  Jozef Juhar,et al.  Recent Progress in Development of Language Model for Slovak Large Vocabulary Continuous Speech Recognition , 2012 .