Beyond Spectral Clustering: A Comparative Study of Community Detection for Document Clustering

Dokumenten-Clustering ist ein allgegenwartiges Problem bei der Datengewinnung, da Textdaten eine der gebrauchlichsten Kommunikationsformen sind. Die Reichhaltigkeit der Daten erfordert Methoden, die – je nach den Eigenschaften der Informationen, die gewonnen werden sollen – auf verschiedene Aufgaben zugeschnitten sind. In letzter Zeit wurden graphenbasierte Methoden entwickelt, die es hierarchischen, unscharfen und nicht-gausformigen Dichtemerkmalen erlauben, Strukturen in komplizierten Datenreihen zu identifizieren. In dieser Abhandlung zeigen wir eine neue Methodologie fur das Dokumenten-Clustering, das auf einem Graphen basiert, der durch ein Vektorraummodell definiert ist. Wir nutzen einen uberlappenden hierarchischen Algorithmus und zeigen die Gleichwertigkeit unserer Qualitatsfunktion mit der von Ncut. Wir vergleichen unsere Methode mit spektralem Clustering und anderen graphenbasierten Modellen und stellen fest, dass unsere Methode eine gute und flexible Alternative fur das Nachrichten-Clustering darstellt, wenn eingehende Details zwischen den Themen benotigt werden.