Utiliser la Structure du Document dans le Processus de Construction d'Ontologies

Most methods for ontology learning from text exploit the natural language they contain. We broaden these approaches by analysing the text structure which also conveys semantics. When documents exist in a SGML-like digital form, it becomes easy to get most of their structural features. Our ontology learning method follows two steps. In a first step, it identifies structural features such as titles or enumerations in order to produce a first ontology kernel. We show that such features are particularly relevant since they indicate ontological relations. In a second step, the text natural language, specifically definitions, are processed to enrich this ontology kernel. Mots-cles : Construction d’ontologies, structure du document, patrons structurels, patrons lexico-syntaxiques, Ingenierie des connaissances. Construction d’ontologies Il ne faut pas numeroter les pages 1 Utiliser la Structure du Document dans le Processus de Construction d’Ontologies Mouna Kamel 1 , Nathalie Aussenac-Gilles 1 1 Laboratoire IRIT, Universite Paul Sabatier, Toulouse {kamel,aussenac}@irit.fr Resume : Les methodes classiques de construction d’ontologies a partir de textes exploitent le texte redige qu’ils contiennent. Nous etendons ces approches en y ajoutant l’analyse de la structure du texte, qui contribue a en caracteriser la semantique. Lorsque le document existe sous un format numerique de type SGML, les differents elements de la structure deviennent facilement accessibles. Notre methode de construction d’ontologie se deroule alors en deux etapes. Une premiere phase s’appuie sur le reperage d’elements de structure tels que titres, enumerations et definitions pour fournir un premier noyau d’ontologie. Nous montrons que ces elements sont pertinents car ils denotent des relations d’ordre ontologique. La seconde phase consiste a enrichir ce noyau en analysant le texte redige selon des techniques classiques de TAL. Mots-cles : Construction d’ontologies, structure du document, patrons structurels, patrons lexico-syntaxiques, Ingenierie des connaissances.

[1]  Claudio Giuliano,et al.  Exploiting Shallow Linguistic Information for Relation Extraction from Biomedical Literature , 2006, EACL.

[2]  Ludovic Tanguy,et al.  Repérage automatique de structures linguistiques en corpus : le cas des énoncés définitoires , 2000 .

[3]  Michel Charolles,et al.  L'encadrement du discours , 1997 .

[4]  Nicholas Asher,et al.  La SDRT: une approche de la cohérence du discours dans la tradition de la sémantique dynamique , 2001 .

[5]  Marie-Paule Jacques Structure matérielle et contenu sémantique du texte écrit , 2005 .

[6]  Nathalie Aussenac-Gilles,et al.  Les relations sémantiques: du linguistique au formel , 2000 .

[7]  Thierry Baccino,et al.  Chapitre 12. Approches cognitives de la spatialisation du langage , 2005 .

[8]  Nathalie Aussenac-Gilles,et al.  The TERMINAE Method and Platform for Ontology Engineering from Texts , 2008, Ontology Learning and Population.

[9]  Daniel P. Miranker,et al.  Translating SQL Applications to the Semantic Web , 2008, DEXA.

[10]  Donald Hindle,et al.  Noun Classification From Predicate-Argument Structures , 1990, ACL.

[11]  Jacques Virbel,et al.  Le modèle d'architecture textuelle : fondements et expérimentation , 2001 .

[12]  C. Thinus-Blanc,et al.  Agir dans l'espace , 2005 .

[13]  Gregory Grefenstette,et al.  Explorations in automatic thesaurus discovery , 1994 .

[14]  Didier Bourigault,et al.  UPERY : un outil d’analyse distributionnelle étendue pour la construction d’ontologies à partir de corpus , 2002, JEPTALNRECITAL.

[15]  Georges Gardarin,et al.  B2B Automatic Taxonomy Construction , 2008, ICEIS.

[16]  Philipp Cimiano,et al.  Ontology Learning from Text: Methods, Evaluation and Applications , 2005 .

[17]  Christophe Luc Une typologie des énumérations basée sur les structures rhétoriques et architecturales du texte , 2001, JEPTALNRECITAL.

[18]  Caroline Barrière,et al.  Pattern-based approaches to semantic relation extraction: A state-of-the-art , 2008 .