Probability and expected document frequency of discontinued word sequences : An efficient method for their exact computation

Nous presentons une technique efficace pour calculer la probabilite d'une sequence de mots eventuellement discontigus, c'est-a-dire la probabilite que ces mots apparaissent dans un ordre donne, quel que soit le nombre d'autres mots pouvant apparaitre entre eux. Notons qu 'en lieu et place de mots et de documents, nous pouvons utiliser tout type de donnees sequentielles. Notre approche est basee sur une formalisation du probleme en une chaine de Markov particuliere, dont nous presentons et exploitons les specificites afin d'obtenir une complexite competitive. Nous developpons notre approche plus avant afin de calculer la frequence documentaire attendue d'une sequence donnee. Cet article presente finalement une application de ces travaux: une methode automatique pour l'evaluation directe de l'interet d'une sequence de mots, par le biais de comparaisons statistiques entre leurs frequences attendues et observees.