论文信息 - Approche statistique pour le reprage de mots informatifs dans les textes oraux

Approche statistique pour le reprage de mots informatifs dans les textes oraux

Nous présentons les résultats de l’approche statistique que nous avons développée pour le repérage de mots informatifs à partir de textes oraux. Ce travail fait partie d’un projet lancé par le département de la défense canadienne pour le développement d’un système d’extraction d’information dans le domaine de la Recherche et Sauvetage maritime (SAR). Il s’agit de trouver et annoter les mots pertinents avec des étiquettes sémantiques qui sont les concepts d’une ontologie du domaine (SAR). Notre méthode combine deux types d’information : les vecteurs de similarité générés grâce à l’ontologie du domaine et le dictionnaire-thésaurus Wordsmyth ; le contexte d’énonciation représenté par le thème. L’évaluation est effectuée en comparant la sortie du système avec les réponses de formulaires d’extraction d’information prédéfinis. Les résultats obtenus sur les textes oraux sont comparables à ceux obtenus dans le cadre de MUC7 pour des textes écrits .

Yoshua Bengio | Guy Lapalme | Narjès Boufaden

[1] David Fisher,et al. CRYSTAL: Inducing a Conceptual Dictionary , 1995, IJCAI.

[2] Andrew McCallum,et al. Maximum Entropy Markov Models for Information Extraction and Segmentation , 2000, ICML.

[3] Narjès Boufaden. An Ontology-based Semantic Tagger for IE system , 2003, ACL.

[4] Hinrich Schütze,et al. Book Reviews: Foundations of Statistical Natural Language Processing , 1999, CL.

[5] Yoshua Bengio,et al. Topic Segmentation : A First Stage to Dialog-Based Information Extraction , 2001, NLPRS.

[6] Yoshua Bengio,et al. Découpage thématique des conversations : un outil d'aide à l'extraction , 2002 .

[7] Ellen Riloff,et al. Automatically Generating Extraction Patterns from Untagged Text , 1996, AAAI/IAAI, Vol. 2.

[8] Marti A. Hearst. Multi-Paragraph Segmentation Expository Text , 1994, ACL.

[9] Lynette Hirschman,et al. MITRE: Description of the Alembic System as used in MET , 1996, TIPSTER.

[10] Yiming Yang,et al. CMU Report on TDT-2: Segmentation, Detection and Tracking , 1999 .

[11] Elisabeth Schriberg,et al. Preliminaries to a Theory of Speech Disfluencies , 1994 .

[12] Tim Leek,et al. Information Extraction Using Hidden Markov Models , 1997 .

[13] Douglas E. Appelt,et al. FASTUS: A Finite-state Processor for Information Extraction from Real-world Text , 1993, IJCAI.