Weryfikacja korpusu wypowiedników polskich (z wykorzystaniem gramatyki formalnej Świdzińskiego)
暂无分享,去创建一个
W pracy dokonana zostala wieloaspektowa weryfikacja korpusu wypowiednikow polskich Marka Świdzinskiego - bazy zdan i oznajmien z naniesioną charakterystyką i strukturą skladnikową jednostek elementarnych. Inicjalna czynnośc procesu weryfikacji reprezentowanych danych, weryfikacja grafemiczna, pozwolila na wyeliminowanie wiekszości bledow zapisu oraz przygotowala material do dalszej pracy. Wazny etap weryfikacji stanowilo tez porownanie dostepnej wersji korpusu z materialem źrodlowym oraz innymi zbiorami danych tworzonych na jego bazie, a przez to niezaleznie przejrzanymi i poprawionymi. Weryfikacja morfologiczna korpusu pozwolila z jednej strony na dokonanie dodatkowego sprawdzenia warstwy typologicznej, z drugiej - na rozbudowe i korekte zasobow źrodlowych uzytego analizatora morfologicznego. Glowną cześc pracy wypelnily wnioski z procesu weryfikacji skladniowej korpusu wykorzystującego gramatyke formalną jezyka polskiego Świdzinskiego oraz analizator skladniowy Świgra Marcina Wolinskiego. Korzystając z dostepnych wyroznien jednostek skladniowych poziomu frazowego oprocz analizy skladniowej pelnych tekstow wypowiednikow dokonano osobnej weryfikacji skladni fraz. Etap weryfikacji skladniowej wymagal rozszerzenia gramatyki Świdzinskiego o konstrukcje jezykowe uzywane w korpusie wypowiednikow, a nie reprezentowane do tej pory w gramatyce, takie jak konstrukcja liczebnikowa czy grupy skladniowe. Dokonano takze wielu niezbednych usprawnien w zakresie akceptowanych konstrukcji jezykowych oraz zweryfikowano hipotezy o domniemanej kolejności drzew analizy oraz o rownowazności dystrybucyjnej jednostek zdaniowych. Proces weryfikacji skladni dostarczyl takze danych do porownania gramatyki Świdzinskiego z jej wariantem uzytym do reprezentacji struktur skladniowych w korpusie oraz do analizy aspektu wieloznaczności danych korpusowych. Osobny etap stanowil analiza pochodnych danych lingwistyczych pozyskanych na bazie probek korpusu, mianowicie rozkladu schematow zdaniowych, realizacji fraz poszczegolnych typow porządku skladnikow zdania elementarnego czy typologii oznajmien. Nawiązując do wcześniejszego opartego na slownikowej kwerendzie projektu skladniowego slownika czasownikow Świdzinskiego w oparciu o dane korpusu powstal slownik czasownikow z informacją skladniową w identycznym formacie, wykorzystany takze do uzupelnienia slownika wymagan czasownikowych analizatora skladniowego. W ramach pracy dane bazy wypowiednikow zostaly zapisane w postaci korpusu rozbiorow gramatycznych w formacie XML-owym. Probke korpusu stanowi jednostka poziomu wypowiedzenia zawierająca komplet informacji skladniwoej, oryginalnie dostepnej wylącznie dla jednostek elementarnych. Wazny aspekt pracy stanowi takze udostepnienie analizatora skladniowego Świgra Marcina Wolinskiego w środowisku Windows oraz stworzenie na jego bazie zestawu narzedzi do przetwarzania korpusu wypowiednikow, ktore mogą okazac sie przydatne do analizy morfologicznej i skladniowej dowolnych korpusow tekstow.