Quel indice pour mesurer l’efficacité en segmentation de textes?

L’évaluation de l’efficacité d’algorithmes de segmentation thématique est généralement effectuée en quantifiant le degré d’accord entre une segmentation hypothétique et une segmentation de référence. Les indices classiques de précision et de rappel étant peu adaptés à ce domaine, WindowDiff (Pevzner, Hearst, 2002) s’est imposé comme l’indice de référence. Une analyse de cet indice montre toutefois qu’il présente plusieurs limitations. L’objectif de ce rapport est d’évaluer un indice proposé par Bookstein, Kulyukin et Raita (2002), la distance de Hamming généralisée, qui est susceptible de remédier à celles-ci. Les analyses montrent que celui-ci conserve tous les avantages de WindowDiff sans les limitations. De plus, contrairement à WindowDiff, il présente une interprétation simple puisqu’il correspond à une vraie distance entre les deux segmentations à comparer.

[1]  Alexander Clark,et al.  An Analysis of Quantitative Aspects in the Evaluation of Thematic Segmentation Algorithms , 2009, SIGDIAL Workshop.

[2]  John D. Lafferty,et al.  Statistical Models for Text Segmentation , 1999, Machine Learning.

[3]  P. Bellot,et al.  Classification et segmentation de textes par arbres de décision Application à la recherche documentaire , 2001 .

[4]  Marti A. Hearst,et al.  A Critique and Improvement of an Evaluation Metric for Text Segmentation , 2002, CL.

[5]  Sylvain Lamprier,et al.  On Evaluation Methodologies for Text Segmentation Algorithms , 2007, 19th IEEE International Conference on Tools with Artificial Intelligence(ICTAI 2007).

[6]  Marti A. Hearst Text Tiling: Segmenting Text into Multi-paragraph Subtopic Passages , 1997, CL.

[7]  Minghui Jiang A Linear-Time Algorithm for Hamming Distance with Shifts , 2007, Theory of Computing Systems.

[8]  W. Bruce Croft,et al.  Text Segmentation by Topic , 1997, ECDL.

[9]  Vladimir A. Kulyukin,et al.  Generalized Hamming Distance , 2002, Information Retrieval.

[10]  Yves Bestgen,et al.  Méthodes statistiques en sciences humaines , 2008 .

[11]  Ron Artstein,et al.  Survey Article: Inter-Coder Agreement for Computational Linguistics , 2008, CL.

[12]  Olivier Ferret,et al.  Using Collocations for Topic Segmentation and Link Detection , 2002, COLING.

[13]  Freddy Y. Y. Choi Advances in domain independent linear text segmentation , 2000, ANLP.

[14]  Hitoshi Isahara,et al.  A Statistical Model for Domain-Independent Text Segmentation , 2001, ACL.

[15]  Violaine Prince,et al.  Text Segmentation Based on Document Understanding for Information Retrieval , 2007, NLDB.

[16]  Yves Bestgen,et al.  Comment évaluer les algorithmes de segmentation automatique ? Essai de construction d’un matériel de référence. , 2006, JEPTALNRECITAL.

[17]  Rebecca J. Passonneau,et al.  Discourse Segmentation by Human and Automated Means , 1997, CL.