Wissensbasiertes Text-Mining mit SynDiKATe

Im Rahmen des SYNDIKATE-Systems werden authentische deutschsprachige Fachtexte aus zwei realen Anwendungsdomänen inhaltlich analysiert: Produktankündigungen und Testberichte über informationstechnische Produkte [9], die aus einer kleineren, mehrere Hundert Dokumente umfassenden Kollektion stammen, und medizinische Befundberichte des Freiburger Universitätsklinikums [10] mit einer aus 120.000 Dokumenten (ca. 107 Wörter) bestehenden Datenbasis. Im Unterschied zur Aufgabenstellung im Bereich der Informationsextraktion (zu einerÜbersichtsdarstellung, vgl. [4]) beschränkt sich die Aufgabe von SYNDIKATE nicht allein auf die Abbildung von sprachlichen Äußerungen in eine vorab bestimmte, vergleichsweise kleine Menge von frame-artigen Konzeptbeschreibungen (sog. Templates). Vielmehr gehen wir über diese Vorgaben in mehrfacher Hinsicht hinaus. Zum einen treffen wir keine a priori Aufteilung in ‘relevante’ und ‘irrelevante’ Templates, sondern operieren mit möglichst breit abdeckenden domänenspezifischen Wissensbasen, um flexibler auf sich ändernde Benutzerinteressen ohne Reanalyse reagieren zu können. Die Größenordnungen der beiden momentan (Anfang 2002) verfügbaren Wissensbasen belaufen sich für die IT-Domäne auf ca. 5.000, für die medizinische Anwendung auf ca. 240.000 Konzepte und Relationen [24]. Auch erfassen wir ein weiteres Spektrum an Wissensformen bei der Erzeugung von Instanzen schon verfügbarer Konzepte – neben Fakten (z.B.: „Der Rechner X kostet DM 6.800.’’) beispielsweise auch Bewertungen (z.B.: „Laptop X ist handlicher als Laptop Y.’’) [26]. Zum anderen erweitern wir die vorgegebene Menge von Konzeptbeschreibungen beim Textverstehen inkrementell, indem neue Konzepte zusammen mit assoziierten Fakten und Bewertungsdaten aus den Texten assimiliert werden. Die aus den Texten akquirierten Konzepte sind im IT-Bereich vor allem neu am Markt platzierte Produkte bzw. in der Medizinanwendung Patientenprofile. Wir konzentrieren uns in diesem Beitrag auf dieses eigentliche Text-Mining-Problem. Die Verschmelzung von Informationsextraktions-, Lernund Text-Mining-Funktionalität (vgl. a. [26], [7], [5]) ist eine konsequente Antwort auf die immensen Probleme bei der primär manuell betriebenen Wissensakquisition. Sie machen es letztlich unmöglich, wissensbasierte Systeme mit der für ihr Operieren eigentlich notwendigen Wissens-Infrastruktur komplett auszustatten. Die automatische Erweiterung des Domänenwissens wird umso mehr zum zentralen Forschungsproblem, wenn ein System – wie in unserem Fall – explizit auf die Erfassung neuen Wissens (etwa in Form von Produktneuheiten) ausgerichtet ist. 2 Eine Systemarchitektur für wissensbasiertes Text-Mining

[1]  Peter M. Wiemer-Hastings,et al.  Implications of an automatic lexical acquisition system , 1995, Learning for Natural Language Processing.

[2]  Ramakrishnan Srikant,et al.  Discovering Trends in Text Databases , 1997, KDD.

[3]  Douglas L. Medin,et al.  9 Basic Levels in Artificial and Natural Categories: Are All Basic Levels Created Equal? , 1992 .

[4]  Wendy G. Lehnert,et al.  Information extraction , 1996, CACM.

[5]  Udo Hahn,et al.  A Terminological Qualification Calculus for Preferential Reasoning under Uncertainty , 1996, KI.

[6]  Yonatan Aumann,et al.  Text Mining via Information Extraction , 1999, PKDD.

[7]  Douglas E. Appelt,et al.  FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text , 1997, ArXiv.

[8]  Maria T. Pazienza,et al.  Information Extraction , 2002, Lecture Notes in Computer Science.

[9]  José Francisco Martínez Trinidad,et al.  CLASITEX: A Tool for Knowledge Discovery from Texts , 1998, PKDD.

[10]  Stefan Schulz,et al.  Knowledge Engineering by Large-Scale Knowledge Reuse - Experience from the Medical Domain , 2000, KR.

[11]  Udo Hahn,et al.  Towards Text Knowledge Engineering , 1998, AAAI/IAAI.

[12]  Raymond J. Mooney Integrated Learning of Words and Their Underlying Concepts , 1987 .

[13]  Martin Romacker,et al.  An Empirical Assessment of Semantic Interpretation , 2000, ANLP.

[14]  Udo Hahn,et al.  QUALITY-BASED LEARNING , 1998 .

[15]  Tom M. Mitchell,et al.  Learning to construct knowledge bases from the World Wide Web , 2000, Artif. Intell..

[16]  Robert M. MacGregor,et al.  A Description Classifier for the Predicate Calculus , 1994, AAAI.

[17]  Werner Nutt,et al.  Terminologische Logiken , 1992, Künstliche Intell..

[18]  Padhraic Smyth,et al.  From Data Mining to Knowledge Discovery in Databases , 1996, AI Mag..

[19]  Ulrich Reimer Automatic Acquisition of Terminological Knowledge from Texts , 1990, ECAI.

[20]  Martin Romacker,et al.  Content management in the SYNDIKATE system - How technical documents are automatically transformed to text knowledge bases , 2000, Data Knowl. Eng..

[21]  Martin Romacker,et al.  How knowledge drives understandingmatching medical ontologies with the needs of medical language processing , 1999, Artif. Intell. Medicine.

[22]  George Hripcsak,et al.  Knowledge discovery and data mining to assist natural language understanding , 1998, AMIA.

[23]  Norbert Bröker,et al.  Performanzorientiertes Parsing und Grammatik-Design — das Parse Talk -System , 1996 .

[24]  Stephen Soderland,et al.  Learning to Extract Text-Based Information from the World Wide Web , 1997, KDD.

[25]  Lisa F. Rau,et al.  Information extraction and text summarization using linguistic knowledge acquisition , 1989, Inf. Process. Manag..

[26]  Joydeep Ghosh,et al.  Evaluating the novelty of text-mined rules using lexical knowledge , 2001, KDD '01.

[27]  Ido Dagan,et al.  Mining Text Using Keyword Distributions , 1998, Journal of Intelligent Information Systems.