论文信息 - Text Clustern mit Hintergrundwissen

Text Clustern mit Hintergrundwissen

Die Clusteranalyse teilt Objekte in aussagefahige, bedeutungsvolle und nutzliche Gruppen (Cluster) ein. Heute hat sie sich ihren Platz in vielen Anwendungsbereichen gesichert. Eingesetzt wird die Clusteranalyse z.B. in der Biologie, um Gene und Proteine mit ahnlicher Funktionalitat zu finden, oder den Zugriff auf ahnliche Objekte einer Datenbank zu beschleunigen. Das Gruppieren von Kunden im Marketing oder die Unterstutzung des Browsens im World Wide Web sind weitere bekannte Anwendungsfelder. Fur das Browsen im WWW oder in sehr grosen Dokument-Sammlungen in internen Firmennetzen stellt das automatische und effiziente Berechnen von Clustern ein immer wichtigeres Mittel zur erstmaligen und automatischen Strukturierung dieser sehr grosen Dokumentsammlungen dar. Bei der Durchfuhrung einer Clusteranalyse arbeiten Spezialisten aus dem Bereich der Statistik oder des Data Minings typischerweise mit Experten aus dem Anwendungsgebiet zusammen. So wird sichergestellt, dass die Ergebnisse auch zu der jeweiligen Aufgabe aus der Praxis passen. Wahrend der Losung der Aufgabe fliesen in diesen Prozess auch viele anwendungsspezifische Informationen ein, die den Erfolg garantieren sollen. Sehr haufig steuert das Wissen der Experten z.B. die Auswahl oder Kombination der zur Unterscheidung der Objekte eingesetzten Merkmale. Fur das Clustern oder die Segmentierung ist die Auswahl und Aufbereitung der verwendeten Merkmale sowie ein entsprechendes Domanenwissen essentiell [DHS01]. So schreiben die Autoren in [DHS01, S. 12]: “As with segmentation, the task of feature extraction is much more problem- and domain-dependent [...] Although the pattern classification techniques presented in this book cannot substitute for domain knowledge, [...]” und machen damit in diesem Zusammenhang klar, dass Wissen uber die Domane bei der Segmentierung helfen kann. Sie geben allerdings nicht an, wie dieses Wissen in den Prozess einfliesen soll. Neben der trivialen Alternative, auf den Doma

Andreas Hotho

[1] Steffen Staab,et al. Ontologies improve text document clustering , 2003, Third IEEE International Conference on Data Mining.

[2] Andreas Hotho,et al. Towards Semantic Web Mining , 2002, SEMWEB.

[3] David G. Stork,et al. Pattern Classification , 1973 .

[4] Steffen Staab,et al. WordNet improves text document clustering , 2003, SIGIR 2003.

[5] Steffen Staab,et al. Text clustering based on good aggregations , 2001, Proceedings 2001 IEEE International Conference on Data Mining.

[6] Steffen Staab,et al. Explaining Text Clustering Results Using Semantic Structures , 2003, PKDD.