Who needs particles? A challenge to the classification of particles as a part of speech in Russian

In 1985, Zwicky argued that ‘particle’ is a pretheoretical notion that should be eliminated from linguistic analysis. We propose a reclassification of Russian particles that implements Zwicky’s directive. Russian particles lack a coherent conceptual basis as a category and many are ambiguous with respect to part of speech. Our corpus analysis of Russian particles addresses theoretical questions about the cognitive status of parts of speech and practical concerns about how particles should be represented in computational models. We focus on nine high-frequency words commonly classed as particles: ešče, tak, ved’, slovno, daže, že, li, da, net. We show that the current tagging of particles in the manually disambiguated Morphological Standard of the Russian National Corpus is not entirely consistent, and that this can create challenges for training a part-of-speech tagger. We offer an alternative tagging scheme that eliminates the category of ‘particle’ altogether. We show that our enriched scheme makes it possible for a part-of-speech tagger to achieve more useful results. Our analysis of particles provides a detailed account of various sub-uses that correspond to different parts of speech, their relationships, and relative distribution. In this sense, our study also contributes to the study of words that exhibit part-of-speech ambiguities.АннотацияВ работе 1985 года Цвикки утверждал, что ‘частица’—это до-теоретическое понятие, которое нужно исключить из лингвистического анализа. Следуя установке Цвикки, мы предлагаем пересмотреть традиционный подход к русским частицам и перераспределить соответствующие слова по другим частеречным классам. Ясные содержательные основания для выделения русских частиц как отдельной категории отсутствуют, частеречная принадлежность многих частиц неоднозначна. В нашем корпусном исследовании рассмотрены теоретические вопросы о когнитивном статусе частей речи, а также практические сложности, связанные с представлением частиц в компьютерных моделях обработки данных. В центре внимания девять высокочастотных слов, традиционно определяемых как частицы: еще, так, ведь, словно, даже, же, ли, да, нет. В статье показано, что существующая система частеречной разметки, принятая в Морфологическом стандарте Национального корпуса русского языка (тексты со снятой омонимией), недостаточно последовательна и что это может создать проблемы при обучении частеречного анализатора. В статье предложена альтернативная система разметки, в которой категория ‘частиц’ как отдельной части речи полностью устранена. Благодаря этой улучшенной системе разметки частеречный анализатор может функционировать более успешно. В статье представлен подробный анализ девяти ‘частиц’ с разбором основных подтипов их употреблений, которые соответствуют различным частям речи, также обсуждаются взаимосвязи выделенных подтипов и их распределение в использованной выборке примеров. В этом отношении, данное исследование вносит вклад в изучение слов с неоднозначной частеречной принадлежностью.

[1]  Andrej A. Zaliznjak Grammatičeskij slovar' russkogo jazyka , 1987 .

[2]  Jurij Rojs Slovar' russkogo jazyka v četyrex tomax , 1985 .

[3]  Noam Chomsky,et al.  वाक्यविन्यास का सैद्धान्तिक पक्ष = Aspects of the theory of syntax , 1965 .

[4]  Anna Wierzbicka,et al.  Semantics, Culture, and Cognition: Universal Human Concepts in Culture-Specific Configurations , 1992 .

[5]  Z. Harris,et al.  Methods in structural linguistics. , 1952 .

[6]  A. Zwicky CLITICS AND PARTICLES , 1985 .

[7]  Andreja Žele Ocena / Review: South Slavic Discourse Particles. Edited by Mirjana N. Dedaić, Mirjana Mišković-Luković. Pragmatics amp; Beyond New Series, Volume 197. , 2011 .

[8]  Anna Wierzbicka The semantics of grammar , 1988 .

[9]  Svetlana McCoy Unifying the Meaning of Multifunctional Particles: The Case of Russian ŽE , 2003 .

[10]  Miloslav Kubík,et al.  Sintaksis russkogo jazyka , 1974 .

[11]  Werner Heinrichs Die Modalpartikeln im Deutschen und Schwedischen , 1981 .

[12]  Gisle Andersen,et al.  Pragmatic markers and propositional attitude , 2000 .

[13]  Mirjana N. Dedaić,et al.  South Slavic Discourse Particles , 2010 .

[14]  Anastasia Makarova,et al.  One type of verbal diminutives in Russian: verbs ending in -n’kat’ , 2015 .

[15]  Noam Chomsky,et al.  Aspects of the Theory of Syntax , 1970 .

[16]  William Croft,et al.  Radical Construction Grammar: Syntactic Theory in Typological Perspective , 2001 .

[17]  Laurel J. Brinton,et al.  Pragmatic Markers in English: Grammaticalization and Discourse Functions , 1996 .

[18]  Mirjana N. Dedaić,et al.  1. South Slavic discourse particles: Introduction , 2010 .

[19]  Ronald W. Langacker,et al.  Essentials of Cognitive Grammar , 2013 .

[20]  Thorstein Fretheim Procedural encoding of propositional attitude in Norwegian conditional clauses , 2000 .

[21]  Charles Carpenter Fries,et al.  The Structure of English , 1954 .

[22]  Alan Timberlake,et al.  A reference grammar of Russian , 2004 .

[23]  Mati Erelt,et al.  Eesti keele käsiraamat , 2007 .

[24]  Svetlana McCoy,et al.  Connecting Information Structure and Discourse Structure through ``Kontrast'': The Case of Colloquial Russian Particles -TO, ŽE, and VED' , 2003, J. Log. Lang. Inf..

[25]  András Kornai,et al.  HunPos: an open source trigram tagger , 2007, ACL 2007.

[26]  Christopher D. Manning Part-of-Speech Tagging from 97% to 100%: Is It Time for Some Linguistics? , 2011, CICLing.