论文信息 - Probability and expected document frequency of discontinued word sequences : An efficient method for their exact computation

Probability and expected document frequency of discontinued word sequences : An efficient method for their exact computation

Nous presentons une technique efficace pour calculer la probabilite d'une sequence de mots eventuellement discontigus, c'est-a-dire la probabilite que ces mots apparaissent dans un ordre donne, quel que soit le nombre d'autres mots pouvant apparaitre entre eux. Notons qu 'en lieu et place de mots et de documents, nous pouvons utiliser tout type de donnees sequentielles. Notre approche est basee sur une formalisation du probleme en une chaine de Markov particuliere, dont nous presentons et exploitons les specificites afin d'obtenir une complexite competitive. Nous developpons notre approche plus avant afin de calculer la frequence documentaire attendue d'une sequence donnee. Cet article presente finalement une application de ces travaux: une methode automatique pour l'evaluation directe de l'interet d'une sequence de mots, par le biais de comparaisons statistiques entre leurs frequences attendues et observees.

Helena Ahonen-Myka | Antoine Doucet | Helena Ahonen-Myka | A. Doucet

[1] Frank Smadja,et al. Retrieving Collocations from Text: Xtract , 1993, CL.

[2] Edward A. Fox,et al. Some Considerations for Implementing the SMART Information Retrieval System Under UNIX , 1983 .

[3] Don Coppersmith,et al. Matrix multiplication via arithmetic progressions , 1987, STOC.

[4] Sophia Ananiadou,et al. The C-value/NC-value Method of Automatic Recognition for Multi-Word Terms , 1998, ECDL.

[5] Charles M. Grinstead,et al. Introduction to probability , 1999, Statistics for the Behavioural Sciences.

[6] Feller William,et al. An Introduction To Probability Theory And Its Applications , 1950 .

[7] Olga Vechtomova,et al. The Role of Multi-word Units in Interactive Information Retrieval , 2005, ECIR.

[8] Kenneth Ward Church,et al. Word Association Norms, Mutual Information, and Lexicography , 1989, ACL.

[9] Claire Cardie,et al. An Analysis of Statistical and Syntactic Phrases , 1997, RIAO.

[10] David D. Lewis,et al. Reuters-21578 Text Categorization Test Collection, Distribution 1.0 , 1997 .

[11] C. Pollard,et al. Center for the Study of Language and Information , 2022 .

[12] Charles R. Johnson,et al. Topics in Matrix Analysis , 1991 .