Towards a Lexicon of XIXth Century Slovene
暂无分享,去创建一个
Historical Slovene texts are being increasingly digitized and made available on the internet in the scope of digital libraries, but so far no language-technology support is offered for processing, searching and reading such materials. Appropriate lexical resources for historical Slovene language could significantly increase such support, by enabling better automatic OCR correction, full-text searching and by modernizing archaic language. This paper describes the first steps in creating a historical lexicon of Slovene, which will map archaic word-forms into modern word-forms and lemmas. The process of lexicon acquisition relies on a proof-read corpus of Slovene books from the XIX century, a large lexicon of contemporary Slovene language, and LeXtractor, a tool to map historical forms to their contemporary equivalents via a set of rewrite rules, and to provide an editing environment for lexicon construction. The envisioned lexicon should not only help in making digital libraries more accessible but also provide a quantitative basis for linguistic explorations of historical Slovene texts. Prvi koraki v izdelavi leksikona slovenščine devetnajstega stoletja Čedalje več slovenskih historičnih besedil je digitaliziranih in dostopnih na spletu v okviru digitalnih knjižnic, vendar zaenkrat še ni na voljo jezikovnotehnološke podpore za obdelavo, iskanje in branje takšnih gradiv. Ustrezni leksikalni viri za historično slovenščino bi lahko z omogočanjem popravkov avtomatsko prepoznanega besedila, iskanja po celotnem besedilu in modernizacijo arhaičnega jezika občutno izboljšali tako podporo. Članek opiše prve korake v razvoju historičnega leksikona slovenščine, ki bo pripisal arhaičnim besednim oblikam sodobne besedne oblike in leme. Proces gradnje slovarja se naslanja na korigirani korpus slovenskih knjig 19. stoletja, obsežen leksikon sodobnega slovenskega jezika in orodje, ki omogoča tako preslikavo historičnih oblik v njihove sodobne ustreznice s pomočjo prepisovalnih pravil kot urejevalno okolje za gradnjo slovarja. Tako zastavljeni leksikon ne bo le omogočil večjo dostopnost digitalnih knjižnic, temveč bo predstavljal tudi kvantitativno osnovo za jezikoslovne raziskave historičnih slovenskih
[1] Ein Werkstättenbericht. Deutsch-slowenische/kroatische Übersetzung 1848-1918 , 2007 .
[2] Klaus U. Schulz,et al. Enabling information retrieval on historical document collections: the role of matching procedures and special lexica , 2009, AND '09.
[3] Tomaž Erjavec,et al. An Architecture for Editing Complex Digital Documents , 2007 .