Classification non supervisée de documents à partir des modèles Transformeurs

Résumé. Les plongements de mots pré-entraînés basés sur les modèles Trans-formeur sont maintenant largement utilisés dans l’exploration de textes où ils sont connus pour améliorer de manière significative les tâches supervisées telles que la classification supervisée de textes, la reconnaissance d’entités nommées et la réponse aux questions. Puisque les modèles Transformeur créent plusieurs plongements différents pour la même entrée, un à chaque couche de leur architecture, diverses études ont déjà essayé d’identifier ceux de ces plongements qui contribuent le plus au succès des tâches mentionnées ci-dessus. En revanche, la même analyse des performances n’a pas encore été réalisée dans le cadre non supervisé. Dans cet article, nous évaluons l’efficacité des modèles Transfor-meur sur l’importante de la tâche de classification non supervisée de documents. En particulier, nous présentons une approche clustering ensemble qui exploite toutes les couches du réseau. Des expériences numériques menées sur des ensembles de données réels avec différents modèles Transformeur montrent l’effi-cacité de la méthode proposée par rapport à plusieurs stratégies habituellement utilisées. Cet article est une restitution plus détaillée du papier (Ait-Saada et al., 2021a).

[1]  Mohamed Nadif,et al.  How to Leverage a Multi-layered Transformer Language Model for Text Clustering: an Ensemble Approach , 2021, CIKM.

[2]  M. Nadif,et al.  Ensemble Block Co-clustering: A Unified Framework for Text Data , 2020, CIKM.

[3]  Goran Glavas,et al.  Probing Pretrained Language Models for Lexical Semantics , 2020, EMNLP.

[4]  Betty van Aken,et al.  How Does BERT Answer Questions?: A Layer-Wise Analysis of Transformer Representations , 2019, CIKM.

[5]  Xiang Lisa Li,et al.  Specializing Word Embeddings (for Parsing) by Information Bottleneck , 2019, EMNLP.

[6]  Anna Rumshisky,et al.  Revealing the Dark Secrets of BERT , 2019, EMNLP.

[7]  Iryna Gurevych,et al.  Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks , 2019, EMNLP.

[8]  Furu Wei,et al.  Visualizing and Understanding the Effectiveness of BERT , 2019, EMNLP.

[9]  Omer Levy,et al.  RoBERTa: A Robustly Optimized BERT Pretraining Approach , 2019, ArXiv.

[10]  Omer Levy,et al.  What Does BERT Look at? An Analysis of BERT’s Attention , 2019, BlackboxNLP@ACL.

[11]  Dipanjan Das,et al.  BERT Rediscovers the Classical NLP Pipeline , 2019, ACL.

[12]  Kilian Q. Weinberger,et al.  BERTScore: Evaluating Text Generation with BERT , 2019, ICLR.

[13]  Yonatan Belinkov,et al.  Linguistic Knowledge and Transferability of Contextual Representations , 2019, NAACL.

[14]  Mohamed Nadif,et al.  Spectral Clustering via Ensemble Deep Autoencoder Learning (SC-EDAE) , 2019, Pattern Recognit..

[15]  Luke S. Zettlemoyer,et al.  Dissecting Contextual Word Embeddings: Architecture and Representation , 2018, EMNLP.

[16]  Luke S. Zettlemoyer,et al.  Deep Contextualized Word Representations , 2018, NAACL.

[17]  Vikas Raunak,et al.  Effective Dimensionality Reduction for Word Embeddings , 2017, RepL4NLP@ACL.

[18]  Vladimir B. Berikov,et al.  Ensemble clustering based on weighted co-association matrices: Error bound and convergence properties , 2017, Pattern Recognit..

[19]  Pramod Viswanath,et al.  All-but-the-Top: Simple and Effective Postprocessing for Word Representations , 2017, ICLR.

[20]  Sadaaki Miyamoto,et al.  Spherical k-Means++ Clustering , 2015, MDAI.

[21]  M. Cugmas,et al.  On comparing partitions , 2015 .

[22]  Mason A. Porter,et al.  Robust Detection of Dynamic Community Structure in Networks , 2012, Chaos.

[23]  Sandro Vega-Pons,et al.  A Survey of Clustering Ensemble Algorithms , 2011, Int. J. Pattern Recognit. Artif. Intell..

[24]  Jean-Loup Guillaume,et al.  Fast unfolding of communities in large networks , 2008, 0803.0476.

[25]  Derek Greene,et al.  Practical solutions to the problem of diagonal dominance in kernel document clustering , 2006, ICML.

[26]  D. Steinley Properties of the Hubert-Arabie adjusted Rand index. , 2004, Psychological methods.

[27]  Xin Liu,et al.  Document clustering based on non-negative matrix factorization , 2003, SIGIR.

[28]  Joydeep Ghosh,et al.  Cluster Ensembles --- A Knowledge Reuse Framework for Combining Multiple Partitions , 2002, J. Mach. Learn. Res..

[29]  Thomas G. Dietterich Multiple Classifier Systems , 2000, Lecture Notes in Computer Science.

[30]  Mohamed Nadif,et al.  Unsupervised Methods for the Study of Transformer Embeddings , 2021, IDA.

[31]  Ming-Wei Chang,et al.  BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding , 2019, NAACL.

[32]  Jens Lehmann,et al.  DBpedia - A large-scale, multilingual knowledge base extracted from Wikipedia , 2015, Semantic Web.

[33]  Geoffrey E. Hinton,et al.  Visualizing Data using t-SNE , 2008 .

[34]  J. MacQueen Some methods for classification and analysis of multivariate observations , 1967 .