Rechtliche Bedingungen für die Bereitstellung eines Chat-Korpus in CLARIN-D: Ergebnisse eines Rechtsgutachtens

Korpora zur Sprachverwendung in der internetbasierten Kommunikation, die frei für Forschung, Lehre und Sprachdokumentation zur Verfügung stehen, sind in der deutschen und internationalen Sprachressourcenlandschaft nur sehr begrenzt vorhanden. Zugleich besteht in den Bereichen Linguistik, Sprachvermittlung und Sprachtechnologie – allgemeiner in allen Bereichen der digitalen Geistesund Sozialwissenschaften, die sich empirisch und sprachdatenbasiert mit Tendenzen der deutschen Gegenwartssprache und mit Phänomenen im Social Web beschäftigen – ein großer Bedarf an hochwertigen, für Recherchezwecke aufbereiteten Sprachressourcen. Wesentliche Gründe für die geringe Zahl an frei verfügbaren Ressourcen liegen im Fehlen von Standards für die Erhebung, Dokumentation, Repräsentation und Annotation von Sprachdaten aus Genres wie Chats, Online-Foren, Newsgroups, sozialen Netzwerken, Tweets, Weblogs oder mobilen Messaging-Anwendungen wie SMS und WhatsApp. Auch sind Anwendungen im Bereich des Natural Language Processing (NLP) bislang nur begrenzt in der Lage, Daten dieses Typs zu verarbeiten und automatisch mit linguistischen Annotationen zu versehen. In den letzten Jahren gibt es zu verschiedenen dieser Desiderate eine rege, interdisziplinär ausgerichtete Forschung, die sich mit der Entwicklung von Standards für die Repräsentation und Annotation und mit der Anpassung von sprachtechnologischen Verfahren für den Bereich der internetbasierten Kommunikation bzw. den Sprachgebrauch in sozialen Medien befasst.1 Lösungsvor-

[1]  Swantje Westpfahl,et al.  STTS 2.0? Improving the Tagset for the Part-of-Speech-Tagging of German Spoken Data , 2014, LAW@COLING.

[2]  Swantje Westpfahl,et al.  FOLK-Gold ― A Gold Standard for Part-of-Speech-Tagging of Spoken German , 2016, LREC.

[3]  Jörg Höhne Verfahren zur Anonymisierung von Einzeldaten , 2010 .

[4]  Harald Lüngen,et al.  A TEI P5 Document Grammar for the IDS Text Model , 2012 .

[5]  Michael Beißwenger Das Dortmunder Chat-Korpus , 2013 .

[6]  Ben Medlock An Introduction to NLP-based Textual Anonymisation , 2006, LREC.

[7]  Thomas Bartz,et al.  Optimierung des Stuttgart-Tübingen-Tagset für die linguistische Annotation von Korpora zur internetbasierten Kommunikation: Phänomene, Herausforderungen, Erweiterungsvorschläge , 2013, J. Lang. Technol. Comput. Linguistics.

[8]  Harald Lüngen,et al.  *Integrating corpora of computer-mediated communication in CLARIN-D: Results from the curation project ChatCorpus2CLARIN , 2016, KONVENS.

[9]  Eliza Margaretha,et al.  Building Linguistic Corpora from Wikipedia Articles and Discussions , 2014, J. Lang. Technol. Comput. Linguistics.

[10]  Benoît Sagot,et al.  The CoMeRe corpus for French: structuring and annotating heterogeneous CMC genres , 2014, J. Lang. Technol. Comput. Linguistics.

[11]  Erhard W. Hinrichs,et al.  The Tüba-D/Z Treebank: Annotating German with a Context-Free Backbone , 2004, LREC.

[12]  Angelika Storrer,et al.  A TEI Schema for the Representation of Computer-mediated Communication , 2012 .

[13]  Rachel Panckhurst A Large SMS Corpus in French: From Design and Collation to Anonymisation, Transcoding and Analysis , 2013 .

[14]  Joachim Bingel,et al.  Named Entity Tagging a Very Large Unbalanced Corpus: Training and Evaluating NE Classifiers , 2014, LREC.

[15]  Stefan Thater,et al.  Improving the Performance of Standard Part-of-Speech Taggers for Computer-Mediated Communication , 2014, KONVENS.

[16]  Stefan Evert,et al.  EmpiriST 2015: A Shared Task on the Automatic Linguistic Annotation of Computer-Mediated Communication and Web Corpora , 2016, WAC@ACL.