De La Modelisation A L'exploitation Des Documents A Structures Multiples. (From Modeling To Exploitation Of Multistructured Documents)

Avec l'evolution des nouvelles technologies de l'information et de la communication, les documents papier ont laisse la place aux documents numeriques. On considere de plus que le document n'est plus vu comme un tout, ni comme un bloc monolithique, mais comme un ensemble organise d'entites. Exploiter ces documents revient a identifier et retrouver ces entites. Ces dernieres sont reliees par des relations permettant de donner une « forme » au document. Plusieurs types de relations peuvent apparaitre, de sorte a ce que plusieurs « formes » d'un meme document emergent. Ces differentes materialisations d'un meme document sont liees a des usages differents d'un meme document et sont primordiales pour une gestion optimale et partagee des fonds documentaires. Les travaux presentes dans cette these visent a faire face aux defis de representation des differentes materialisations d'un document au travers de la representation de ses entites et de leurs relations. Si ces materialisations sont traduites par des structures, les enjeux concernent la representation des documents a structures multiples. Nos travaux portent essentiellement sur la modelisation, l'integration et l'exploitation des documents a structures multiples : (1) Proposition d'un modele de documents multistructures. Ce modele integre deux niveaux de description : un niveau specifique permettant de decrire chaque document au travers des entites qui le composent et un niveau generique permettant de definir des typologies de documents au travers du regroupement de structures similaires. (2) Proposition des techniques d'extraction de structure (implicite ou explicite) d'un document (niveau specifique) et de classification de cette structure par rapport a des structures communes (niveau generique). L'algorithme de classification propose integre un calcul d'une distance dite « structurelle » (comparaison d'arbres et de graphes). Cette demarche de classification est associee a une demarche de verification de la « cohesion » des classes et de reorganisation eventuelle des classes perturbees. (3) Proposition de techniques d'exploitation des documents a partir de leurs structures et de leur contenu : (a) une recherche de documents qui permet de restituer des granules documentaires selon des criteres de recherches bases sur la ou les structures et/ou le contenu ; (b) une analyse multidimensionnelle qui consiste a analyser et visualiser les informations documentaires selon plusieurs dimensions (de structures et/ou de contenu). Pour valider nos propositions, nous avons developpe un outil d'aide a l'integration et a l'analyse de documents a structures multiples, intitule MDOCREP (Multistructured DOCument REPository). Cet outil assure d'une part, l'extraction et la classification des structures de documents, et d'autre part, l'interrogation et la restitution multidimensionnelle des documents a partir de leurs differentes structures.

[1]  Jacques Le Maitre Describing multistructured XML documents by means of delay nodes , 2006, DocEng '06.

[2]  Serge Abiteboul,et al.  Detecting changes in XML documents , 2002, Proceedings 18th International Conference on Data Engineering.

[3]  Chantal Soulé-Dupuy,et al.  Classification de documents : calcul d'une distance structurelle , 2010, EGC.

[4]  Gianni Costa,et al.  A Tree-Based Approach to Clustering XML Documents by Structure , 2004, PKDD.

[5]  Marcelo Arenas,et al.  A normal form for XML documents , 2004, TODS.

[6]  Philippe Mulhem,et al.  Modelling multimedia structured documents: a retrieval oriented approach , 1996, Proceedings of 7th International Conference and Workshop on Database and Expert Systems Applications: DEXA 96.

[7]  Alain Michard,et al.  XML langage et applications , 1999 .

[8]  C. M. Sperberg-McQueen,et al.  Hierarchical encoding of text: Technical problems and SGML solutions , 1995, Comput. Humanit..

[9]  Andrew U. Frank,et al.  Qualitative Spatial Reasoning: Cardinal Directions as an Example , 1996, Int. J. Geogr. Inf. Sci..

[10]  Thorsten Joachims,et al.  Text Categorization with Support Vector Machines: Learning with Many Relevant Features , 1998, ECML.

[11]  C. M. Sperberg-McQueen,et al.  GODDAG: A Data Structure for Overlapping Hierarchies , 2000, DDEP/PODDP.

[12]  Chantal Soulé-Dupuy,et al.  A Textual Warehouse Approach: A Web Data Repository , 2004 .

[13]  Line Poullet Formaliser la sémantique des documents - Un modèle unificateur , 1997, INFORSID.

[14]  Jayant Sharma,et al.  Modeling Topological Spatial Relations: Strategies for Query Processing , 1998 .

[15]  Carole A. Goble,et al.  The Semantics of Semantic Annotation , 2002, OTM.

[16]  Serge Garlatti,et al.  Méta-données et annotations dans le Web sémantique , 2004 .

[17]  Alex Dekhtyar,et al.  Parsing concurrent XML , 2004, WIDM '04.

[18]  B. S. Manjunath,et al.  Introduction to MPEG-7: Multimedia Content Description Interface , 2002 .

[19]  Steven J. DeRose,et al.  Markup Overlap: A Review and a Horse , 2004, Extreme Markup Languages®.

[20]  Mourad Mechkour,et al.  EMIR2: An Extended Model for Image Representation and Retrieval , 1995, DEXA.

[21]  Timos K. Sellis,et al.  Spatio-temporal composition and indexing for large multimedia applications , 1998, Multimedia Systems.

[22]  Max Chevalier,et al.  Activités documentaires des usagers au sein de l'organisation. Amélioration par la pratique d'annotation collective , 2009, Ingénierie des Systèmes d Inf..

[23]  J.M. Martinez,et al.  Standards - MPEG-7 overview of MPEG-7 description tools, part 2 , 2002, IEEE MultiMedia.

[24]  Wei-Yin Loh,et al.  Classification and regression trees , 2011, WIREs Data Mining Knowl. Discov..

[25]  J. MacQueen Some methods for classification and analysis of multivariate observations , 1967 .

[26]  Sylvie Calabretto,et al.  Vers un environnement de gestion de documents à structures multiples , 2004, BDA.

[27]  M. Egenhofer,et al.  Point-Set Topological Spatial Relations , 2001 .

[28]  Karim Djemal A multi-views repository for multi-structured documents , 2007, ICEIS.

[29]  Chantal Soulé-Dupuy,et al.  Management of document multistructurality: Case of document versions , 2009, 2009 Third International Conference on Research Challenges in Information Science.

[30]  James F. Allen Time and time again: The many ways to represent time , 1991, Int. J. Intell. Syst..

[31]  Wendell Piez,et al.  The Layered Markup and Annotation Language (LMNL) , 2002, Extreme Markup Languages®.

[32]  Roger T. Pédauque Document : forme, signe et médium, les re-formulations du numérique , 2003 .

[33]  Peter M. G. Apers,et al.  Multimedia Databases in Perspective , 1997, Springer London.

[34]  Sylvie Calabretto,et al.  Entreposage de documents et données semi-structurées. , 2007 .

[35]  Yves Lechevallier,et al.  Classification de documents XML à partir d'une représentation linéaire des arbres de ces documents , 2006, EGC.

[36]  Ludovic Denoyer,et al.  Un modèle statistique pour la classification de documents structurés , 2003, EGC.

[37]  F. Barbier Histoire du livre , 2006 .

[38]  Timos K. Sellis,et al.  A methodology for clustering XML documents by structure , 2006, Inf. Syst..

[39]  Alexandre Termier,et al.  TreeFinder: a first step towards XML data mining , 2002, 2002 IEEE International Conference on Data Mining, 2002. Proceedings..

[40]  Neel Sundaresan,et al.  A classifier for semi-structured documents , 2000, KDD '00.

[41]  Tao Jiang,et al.  Alignment of Trees - An Alternative to Tree Edit , 1994, Theor. Comput. Sci..

[42]  Alex Dekhtyar,et al.  Searching Multi-hierarchical XML Documents: The Case of Fragmentation , 2005, DEXA.

[43]  Michel Beigbeder,et al.  Construction et utilisation de contextes autour des noeuds d'un hypertexte pour la recherche d'information , 2004, Document Numérique.

[44]  Andreas Witt,et al.  Multiple hierarchies: new aspects of an old solution. Re-published , 2005 .

[45]  Franck Fourel Modélisation, indexation et recherche de documents structurés , 1998 .

[46]  Catherine C. Marshall,et al.  Toward an ecology of hypertext annotation , 1998, HYPERTEXT '98.

[47]  Antoine Doucet,et al.  Naïve Clustering of a large XML Document Collection , 2002, INEX Workshop.

[48]  Hinrich Schütze,et al.  A comparison of classifiers and document representations for the routing problem , 1995, SIGIR '95.

[49]  Kaizhong Zhang,et al.  On the Editing Distance Between Undirected Acyclic Graphs , 1996, Int. J. Found. Comput. Sci..

[50]  Mbarek Charhad Modèles de documents vidéos basés sur le formalisme des graphes conceptuels pour l'indexation et la recherche par le contenu sémantique , 2005 .

[51]  Stéphane Crozat,et al.  Instrumentation numérique des documents : pour une séparation fonds/forme , 2004 .

[52]  C. M. Sperberg-McQueen,et al.  Guidelines for electronic text encoding and interchange , 1994 .

[53]  Chantal Soulé-Dupuy,et al.  Formal modeling of multistructured documents , 2008, 2008 Second International Conference on Research Challenges in Information Science.

[54]  Ricardo A. Baeza-Yates,et al.  Proximal nodes: a model to query document databases by content and structure , 1997, TOIS.

[55]  Laks V. S. Lakshmanan,et al.  Making Designer Schemas with Colors , 2006, 22nd International Conference on Data Engineering (ICDE'06).

[56]  Giovanni Tummarello,et al.  Toward Textual Encoding Based on RDF , 2005, ELPUB.

[57]  Michel Beigbeder,et al.  Les temps du document et la recherche d'information , 2004, Document Numérique.

[58]  Andrew U. Frank,et al.  Qualitative spatial reasoning about distances and directions in geographic space , 1992, J. Vis. Lang. Comput..

[59]  Boris Vrdoljak,et al.  Data warehouse design from XML sources , 2001, DOLAP '01.

[60]  Ludovic Denoyer,et al.  Bayesian network model for semi-structured document classification , 2004, Inf. Process. Manag..

[61]  Mark Liberman,et al.  A formal framework for linguistic annotation , 1999, Speech Commun..

[62]  Denis Lalanne,et al.  Documents statiques et multimodalité. L'alignement temporel pour structurer des archives multimédias de réunions , 2004, Document Numérique.

[63]  Alex Dekhtyar,et al.  A Framework for Management of Concurrent XML Markup , 2003, ER.

[64]  Sylvie Calabretto,et al.  Semantic structuring of documents , 1997, Proceedings of the Third Basque International Workshop on Information Technology - BIWIT'97 - Data Management Systems.

[65]  Richi Nayak,et al.  Clustering XML Documents Using Closed Frequent Subtrees: A Structural Similarity Approach , 2007, INEX.

[66]  Jérôme Farinas,et al.  Audio Indexing on the Web: a Preliminary Study of Some Audio Descriptors , 2003 .

[67]  Denis Debarbieux,et al.  Modélisation et requêtes des documents semi-structurés : exploitation de la structure de graphe. (Using Graph Structure for XML querying) , 2005 .

[68]  Charles F. Goldfarb,et al.  SGML handbook , 1990 .

[69]  Sylvie Calabretto,et al.  Adaptation de XML et XQuery pour la représentation et l'interrogation des documents multi-structurés , 2007, CORIA.

[70]  Xavier Tannier Extraction et recherche d'information en langage naturel dans les documents semi-structurés , 2006 .

[71]  Jeff Z. Pan,et al.  Resource Description Framework , 2020, Definitions.

[72]  Jocelyne Nanard,et al.  Formalismes de manipulation du temps par l'auteur dans les documents multimédias , 2004, Document Numérique.

[73]  Dimitris Papadias,et al.  Spatial Relations, Minimum Bounding Rectangles, and Spatial Data Structures , 1997, Int. J. Geogr. Inf. Sci..

[74]  Benjamin Piwowarski,et al.  Un modèle pour la recherche d’information sur des documents structurés , 2002 .

[75]  Chris Brew,et al.  Using SGML as a Basis for Data-Intensive Natural Language Processing , 1997, Comput. Humanit..

[76]  Max Chevalier,et al.  Social validation of collective annotations: Definition and experiment , 2010, J. Assoc. Inf. Sci. Technol..

[77]  Karim Djemal,et al.  Vers une exploitation de documents multi-structurés , 2007, INFORSID.

[78]  Laks V. S. Lakshmanan,et al.  A Foundation for Multi-dimensional Databases , 1997, VLDB.

[79]  Frank S. C. Tseng,et al.  The concept of document warehousing for multi-dimensional modeling of textual-based business intelligence , 2006, Decis. Support Syst..

[80]  N. Chatti Documents multi-structurés : de la modélisation vers l'exploitation , 2006 .

[81]  Mohamed Mbarki Gestion de l'hétérogénéité documentaire : le cas d'un entrepôt de documents multimédia , 2008 .

[83]  C. F. Goldfarb,et al.  A generalized approach to document markup , 1981, SIGPLAN SIGOA Symposium on Text Manipulation.

[84]  Kaïs Khrouf Entrepôts de documents : de l'alimentation à l'exploitation , 2004 .

[85]  Alex Dekhtyar,et al.  A framework for management of concurrent XML markup , 2005, Data Knowl. Eng..

[86]  Jonathan Robie,et al.  Editors , 2003 .

[87]  George A. Miller,et al.  WordNet: A Lexical Database for English , 1995, HLT.

[88]  Elisa Bertino,et al.  Measuring the structural similarity among XML documents and DTDs , 2008, Journal of Intelligent Information Systems.

[89]  James F. Allen Maintaining knowledge about temporal intervals , 1983, CACM.

[90]  Rémi Ronfard,et al.  Audiovisual-based hypermedia authoring: using structured representations for efficient access to AV documents , 1999, HYPERTEXT '99.

[91]  Richard Chbeir,et al.  Structural Similarity Evaluation Between XML Documents and DTDs , 2007, WISE.

[92]  Nathalie Hernandez Ontologies pour l'aide à l'exploration d'une collection de documents , 2005, Ingénierie des Systèmes d Inf..

[93]  Florence Sèdes,et al.  Indexation de séquences vidéo. Indices liés au temps , 2004, Document Numérique.

[94]  Max J. Egenhofer,et al.  Spatial SQL: A Query and Presentation Language , 1994, IEEE Trans. Knowl. Data Eng..

[95]  Christine Julien Bases d'informations généralisées : Contribution à l'étude des mécanismes de consultation d'objets multimédia , 1988 .

[96]  Michael J. Fischer,et al.  The String-to-String Correction Problem , 1974, JACM.

[97]  Norbert Fuhr,et al.  XIRQL: a query language for information retrieval in XML documents , 2001, SIGIR '01.

[98]  Emmanuel Bruno,et al.  MSXD: A Model and a Schema for Concurrent Structures Defined over the Same Textual Data , 2006, DEXA.

[99]  K. Djemal,et al.  Modeling and Exploitation of Multistructured Documents , 2008, 2008 3rd International Conference on Information and Communication Technologies: From Theory to Applications.

[100]  Lou Burnard The Text Encoding Initiative: A progress report , 1992 .

[101]  Laks V. S. Lakshmanan,et al.  Colorful XML: one hierarchy isn't enough , 2004, SIGMOD '04.

[102]  Jaroslav Pokorný Modelling stars using XML , 2001, DOLAP '01.

[103]  Dan Brickley,et al.  Rdf vocabulary description language 1.0 : Rdf schema , 2004 .

[104]  Henry A. Kautz,et al.  Constraint Propagation Algorithms for Temporal Reasoning , 1986, AAAI.

[105]  David J. DeWitt,et al.  X-Diff: an effective change detection algorithm for XML documents , 2003, Proceedings 19th International Conference on Data Engineering (Cat. No.03CH37405).

[106]  Geneviève Lallich-Boidin,et al.  Temps et documents numériques , 2004, Document Numérique.

[107]  Andreas Witt,et al.  Unification of XML Documents with Concurrent Markup , 2005, Lit. Linguistic Comput..

[108]  Makoto Murata,et al.  Hedge automata: a formal model for xml schemata , 1999 .

[109]  Patrick Durusau,et al.  Tabling the Overlap Discussion , 2004, Extreme Markup Languages®.

[110]  M. Charhad,et al.  Semantic video content indexing and retrieval using conceptual graphs , 2004, Proceedings. 2004 International Conference on Information and Communication Technologies: From Theory to Applications, 2004..

[111]  Andreas Witt,et al.  Making CONCUR work , 2005, Extreme Markup Languages®.

[112]  Franco Scarselli,et al.  Classification of HTML documents by Hidden Tree-Markov Models , 2001, Proceedings of Sixth International Conference on Document Analysis and Recognition.

[113]  Yves Marcoux Les formats normalisés de documents électroniques , 1994 .

[114]  Laurent Romary,et al.  Parallel alignment of structured documents , 2000 .

[115]  Kaizhong Zhang,et al.  Approximate tree pattern matching , 1997 .