XML Content Warehousing: Improving Sociological Studies of Mailing Lists and Web Data

Gestion de données XML — Amélioration des études sociologiques des listes d’emails et des données sur le Web : Dans cet article, nous présentons les lignes directrices d’une approche basée sur le XML pour l’étude sociologique des données Web tels que l’analyse des listes de diffusion ou bases de données disponibles en ligne. L’utilisation d’un entrepôt XML est une solution flexible pour le stockage et le traitement de ce type de données. Nous proposons une solution éprouvée et montrons des applications possibles avec notre étude de profils d’experts impliqués dans le travail de normalisation au W3C. Nous illustrons l’utilisation de bases de données sociologiques semi-structurées en présentant notre schéma XML pour le stockage de listes de diffusion. Un schéma XML permet de nombreuses adjonctions ou croisements de sources de données, sans modifier les données déjà stockées, tout en permettant de possibles évolutions structurelles. Nous montrons également que l’existence de données cachées implique une complexité accrue pour les utilisateurs SQL traditionnels. Le stockage par XML permet l’entreposage exhaustif et l’utilisation de requêtes récursives qui ne sont pas dépendantes du schéma de stockage initial. Nous présentons enfin la possibilité d’exporter les données stockées vers des logiciels avancés couramment utilisés par les sociologues. In this paper, we present the guidelines for an XML-based approach for the sociological study of Web data such as the analysis of mailing lists or databases available online. The use of an XML warehouse is a flexible solution for storing and processing this kind of data. We propose an implemented solution and show possible applications with our case study of profiles of experts involved in W3C standard-setting activity. We illustrate the sociological use of semi-structured databases by presenting our XML Schema for mailing-list warehousing. An XML Schema allows many adjunctions or crossings of data sources, without modifying existing data sets, while allowing possible structural evolution. We also show that the existence of hidden data implies increased complexity for traditional SQL users. XML content warehousing allows altogether exhaustive warehousing and recursive queries through contents, with far less dependence on the initial storage. We finally present the possibility of exporting the data stored in the warehouse to commonly-used advanced software devoted to sociological analysis.

[1]  Jeffrey S. Juris,et al.  Networked social movements: global movements for global justice , 2004 .

[2]  Kathy Buckner,et al.  Using E-Mail for Social and Domestic Purposes , 2000, HOIT.

[3]  Djoerd Hiemstra,et al.  The Importance of Prior Probabilities for Entry Page Search , 2002, SIGIR '02.

[4]  Matthieu Latapy,et al.  Les usages épistémiques des réseaux de communication électronique : Le cas de l’Open-Source , 2008 .

[5]  Zizi Papacharissi,et al.  Democracy online: civility, politeness, and the democratic potential of online political discussion groups , 2004, New Media Soc..

[6]  Elena Pavan,et al.  Structuring Online and Offline Discursive Spaces on Internet Governance. Insights from a Network Approach to Map an Emergent Field. , 2008 .

[7]  E. F. Codd,et al.  A relational model of data for large shared data banks , 1970, CACM.

[8]  Laurian M. Chirica,et al.  The entity-relationship model: toward a unified view of data , 1975, SIGF.

[9]  Geert Molenberghs,et al.  Modeling Partially Incomplete Marital Satisfaction Data , 2006 .

[10]  Kenneth L. Hacker,et al.  Uses of computer‐mediated political communication in the 1992 presidential campaign: A content analysis of the Bush, Clinton and Perot computer lists , 1996 .

[11]  Donald D. Chamberlin,et al.  XQuery: a query language for XML , 2003, SIGMOD '03.

[12]  Lorenzo Mosca,et al.  Global-net for Global Movements? A Network of Networks for a Movement of Movements , 2005, Journal of Public Policy.

[13]  François-Xavier Dudouet,et al.  Applying an XML Warehouse to Social Network Analysis, Lessons from the WebStand Project , 2009, ArXiv.

[14]  Ioana Manolescu,et al.  WebStand, une plateforme de gestion de données web pour applications sociologiques , 2010, Tech. Sci. Informatiques.

[15]  M. Diani SOCIAL MOVEMENT NETWORKS VIRTUAL AND REAL , 2000 .

[16]  F. E. A Relational Model of Data Large Shared Data Banks , 2000 .

[17]  Stefaan Walgrave,et al.  New media, new movements? The role of the internet in shaping the ‘anti‐globalization’ movement , 2002 .

[18]  Lada A. Adamic,et al.  The political blogosphere and the 2004 U.S. election: divided they blog , 2005, LinkKDD '05.

[19]  Bernard Reber,et al.  Marlowe, Prospero & la technologie litteraire , 2003 .

[20]  Matthieu Latapy,et al.  Multi-level analysis of an interaction network between individuals in a mailing-list , 2007, Ann. des Télécommunications.

[21]  Ryen W. White,et al.  Query-biased web page summarisation: a task-oriented evaluation , 2001, SIGIR '01.

[22]  V. Beaudouin,et al.  Constitution d'un espace de communication sur Internet (forums, pages personnelles, courrier électronique...) , 1999 .

[23]  C. H. de Vreese,et al.  The dynamics of referendum campaigns : an international perspective , 2007 .

[24]  Stefaan Walgrave,et al.  New media, new movements? The role of the internet in shaping the "antiglobalization movement" , 2004 .

[25]  Fernanda Fuentes,et al.  Digital Democracy. Discourse and decision making in the information age , 2001 .

[26]  Alexander H. Trechsel E-voting and Electoral Participation , 2007 .

[27]  Ioana Manolescu,et al.  XML warehousing meets sociology , 2005 .

[28]  Dmitri V. Kalashnikov,et al.  Disambiguation Algorithm for People Search on the Web , 2007, 2007 IEEE 23rd International Conference on Data Engineering.

[29]  Serge Abiteboul,et al.  Querying Semi-Structured Data , 1997, Encyclopedia of Database Systems.

[30]  A. Pentland,et al.  Computational Social Science , 2009, Science.

[31]  Francis Chateauraynaud Marlowe. Vers un générateur d’expériences de pensée sur des dossiers complexes , 2003 .

[32]  Alin Deutsch,et al.  A Query Language for XML , 1999, Comput. Networks.

[33]  Daniel W. Drezner,et al.  The power and politics of blogs , 2007 .