Estratégia Distribuída para Análise de Assuntos Abordados no Twitter Via Evolução de Clusters

Recent techniques have applied algorithms of clusters evolution to analyze transitions of subjects in social networks and present themselves effective in the monitoring of these. However, the high rate of data production in social networks creates the need to process an increasing amount of data. This paper proposes a more scalable strategy for analyzing the evolution of subjects in social networks, through the use of a distributed solution in the data clustering stage. The experiments were performed using data obtained from Twitter and demonstrate that the proposed solution is promising, presenting considerable gains in performance. Resumo. Recentes técnicas têm aplicado algoritmos de evolução de clusters para analisar transições de assuntos em redes sociais e apresentam-se eficazes no monitoramento destes. No entanto, a elevada taxa de produção de dados nas redes sociais cria a necessidade de processamento de uma quantidade de dados cada vez maior. Este trabalho propõe uma estratégia mais escalável para análise da evolução de assuntos em redes sociais, por meio do emprego de uma solução distribuída na etapa de clustering dos dados. Os experimentos foram realizados utilizando dados obtidos do Twitter e demonstram que a solução proposta é promissora, apresentando ganhos consideráveis de desempenho.

[1]  Flávio R. C. Sousa,et al.  Dinâmica de Temas Abordados no Twitter Via Evolução de Clusters , 2016, SBBD.

[2]  Jiawei Han,et al.  A Particle-and-Density Based Evolutionary Clustering Method for Dynamic Networks , 2009, Proc. VLDB Endow..

[3]  Javam C. Machado,et al.  G2P: A Partitioning Approach for Processing DBSCAN with MapReduce , 2015, W2GIS.

[4]  Marco A. Casanova,et al.  Discovering frequent mobility patterns on moving object data , 2014, MobiGIS '14.

[5]  Shengrui Wang,et al.  Tracking the evolution of community structures in time-evolving social networks , 2015, 2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA).

[6]  Hans-Peter Kriegel,et al.  A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise , 1996, KDD.

[7]  Sanjay Ghemawat,et al.  MapReduce: Simplified Data Processing on Large Clusters , 2004, OSDI.

[8]  Yufei Tao,et al.  DBSCAN Revisited: Mis-Claim, Un-Fixability, and Approximation , 2015, SIGMOD Conference.

[9]  Bi-Ru Dai,et al.  Efficient Map/Reduce-Based DBSCAN Algorithm with Optimized Data Partition , 2012, 2012 IEEE Fifth International Conference on Cloud Computing.

[10]  Tom White,et al.  Hadoop: The Definitive Guide , 2009 .

[11]  Di Ma,et al.  MR-DBSCAN: An Efficient Parallel Density-Based Clustering Algorithm Using MapReduce , 2011, 2011 IEEE 17th International Conference on Parallel and Distributed Systems.

[12]  Laks V. S. Lakshmanan,et al.  Incremental cluster evolution tracking from highly dynamic network data , 2014, 2014 IEEE 30th International Conference on Data Engineering.