Top_keywords : agrégation de mots-clefs dans un environnement d'analyse en ligne (OLAP)

Résumé. Depuis plus d’une décennie, les travaux de recherche sur OLAP et les bases de données multidimensionnelles ont produit des méthodes, des outils et des moyens d’analyse de données numériques. L’accroissement de la disponibilité des documents numériques entraîne un besoin pour l’ajout de documents XML principalement constitués de données textuelles au sein de bases de données multidimensionnelles et d’un environnement adapté à leur analyse. En réponse à ce besoin, cet article présente une nouvelle fonction d’agrégation permettant l’agrégation de données textuelles au sein d’un environnement OLAP, au même titre que les fonctions d’agrégation arithmétique traditionnelles le permettent pour des données numériques. La fonction TOP_KEYWORD (ou TOP_KW) résume un ensemble de documents par leurs termes les plus significatifs, en employant une fonction de pondération issue de la recherche d’information : tf.idf.