English. Language segmentation, i.e. the division of a multilingual text into monolingual fragments has been addressed in the past, but its application to historical documents has been largely unexplored. We propose a method for language segmentation for multilingual historical documents. For documents that contain a mix of highand low-resource languages, we leverage the high availability of highresource language material and use unsupervised methods for the low-resource parts. We show that our method outperforms previous efforts in this field. Italiano. La segmentazione del linguaggio, la divisione di un testo multilingue in frammenti monolingue, è stata affrontata nel passato, ma la sua applicazione a documenti storici è rimasta in gran parte inesplorata. Proponiamo un metodo per la segmentazione linguistica di documenti storici multilingue. Per documenti che contengono sia lingue ad alta disponibilità di risorse che lingue sottorappresentate, utilizziamo a nostro vantaggio l’elevata disponibilità delle lingue con un’ampia gamma di risorse e impieghiamo sistemi non supervisionati per le parti che dispongono di un minor numero di risorse. Mostriamo che il nostro metodo supera gli sforzi precedenti in questo settore.
[1]
Dan Klein,et al.
Unsupervised Code-Switching for Multilingual Historical Document Transcription
,
2015,
NAACL.
[2]
Ben King,et al.
Labeling the Languages of Words in Mixed-Language Documents using Weakly Supervised Methods
,
2013,
NAACL.
[3]
Jordi Porta,et al.
Twitter Language Identification using Rational Kernels and its potential application to Sociolinguistics
,
2014,
TweetLID@SEPLN.
[4]
Hiroshi Yamaguchi,et al.
Text Segmentation by Language Using Minimum Description Length
,
2012,
ACL.
[5]
David Alfter.
Language Segmentation of Twitter Tweets using Weakly Supervised Language Model Induction
,
2015,
TweetMT@SEPLN.
[6]
Radim Rehurek,et al.
Language Identification on the Web: Extending the Dictionary Method
,
2009,
CICLing.
[7]
Timothy Baldwin,et al.
Automatic Detection and Language Identification of Multilingual Documents
,
2014,
TACL.
[8]
Christian Biemann,et al.
Disentangling from Babylonian Confusion - Unsupervised Language Identification
,
2005,
CICLing.