Sguardi sull'evoluzione dell'italiano standard degli anni Novanta, grazie al Text Mining e alla categorizzazione automatica del lessico del quotidiano "La Repubblica" ( 1 )
暂无分享,去创建一个
Summary Text Mining (TM) is a competitive statistical technology to extract relevant information from huge textual unstructured databases (document warehousing). In this paper, from an immense linguistic archive such as that coming of 10 years of daily "La Repubblica", we describe several examples on the language productivity and the changes of language in the Nineties, with a particular attention of the use evolution of declining of verb mood, tense and person. 1. Introduzione La raccolta di dieci anni di stampa quotidiana e senza dubbio una traccia significativa del linguaggio corrente in un dato periodo di tempo. E' anche un concreto esempio di un immenso document warehouse (oltre 22 milioni di records l'anno) disponibile presso ogni testata giornalistica da interrogare a fini piu diversi, come ad esempio la ricerca di fatti, eventi e personaggi 2 . Fra le possibili applicazioni di Text Mining (TM) al warehouse di Repubblica (Bolasco et al. (2002)), vi e anche quella di estrarre informazioni d'insieme di carattere linguistico sui comportamenti di alcune classi di parole (Balbi et al. (2002)), nonche quella di procedere a misure statistiche che possano consentire dei riferimenti utili per lo studio di altri corpus piu piccoli, ad esso confrontabili (rassegne stampa). In generale, finora non si hanno, per l'italiano, statistiche sistematiche sulla frequenza di unita lessicali al variare dei generi linguistici (formale/informale, scritto/parlato), ad eccezione di qualche confronto fra alcuni lessici di frequenza (LIF e LIP: Giordano, Voghera (2002)). Ne tantomeno sono accessibili dati sulla diversa probabilita delle componenti linguistiche al variare dei settori specialistici (lessico giuridico, economico, informatico, medico). L'approccio del Text Mining puo rendere queste misurazioni molto piu facili, alla portata di tutti, e standardizzate. E' possibile ipotizzare che ogni testo abbia una sua "impronta", una sorta di Dna determinato in primis dall'autore, ma anche dal contesto (argomento e/o contenuto del testo), dalla situazione di generazione del testo, nonche dal mezzo di trasmissione e dal
[1] Dan Sullivan,et al. Document Warehousing and Text Mining: Techniques for Improving Business Operations, Marketing, and Sales , 2001 .
[2] Shlomo Argamon,et al. Automatically Categorizing Written Texts by Author Gender , 2002, Lit. Linguistic Comput..
[3] Giordano Rosa,et al. Verb system and verb usage in spoken and written Italian , 2002 .