Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem

A maioria dos documentos textuais, produzidos no contexto das mais diversas aplicacoes, encontra-se relacionado com algum tipo de contexto geografico. Contudo, os metodos tradicionais para a prospeccao de informacao em coleccoes de documentos veem os textos como conjuntos de termos, ignorando outros aspectos. Mais recentemente, a recuperacao de informacao com suporte ao contexto geografico tem capturado a atencao de diversos investigadores em areas relacionadas com a prospeccao de informacao e o processamento de linguagem natural, envisionando o suporte para tarefas como a pesquisa e visualizacao de informacao textual, com base em representacoes cartograficas. Neste trabalho, comparamos experimentalmente diferentes tecnicas automaticas, as quais utilizam classificadores baseados em modelos de linguagem, para a atribuicao de coordenadas geoespaciais de latitude e longitude a novos documentos, usando apenas o texto dos documentos como evidencia de suporte. Medimos os resultados obtidos com modelos de linguagem baseados em n-gramas de caracteres ou de termos, usando coleccoes de artigos georreferenciados da Wikipedia em tres linguas distintas, nomeadamente em Ingles, Espanhol e Portugues. Experimentamos tambem diferentes metodos de pos-processamento para atribuir as coordenadas geoespaciais com base nas classificacoes. O melhor metodo utiliza modelos de linguagem baseados em n-gramas de caracteres, em conjunto com uma tecnica de pos-processamento que utiliza as coordenadas dos knn documentos mais similares, obtendo um erro de previsao medio de 265 Kilometros, e um erro mediano de apenas 22 Kilometros, para o caso da coleccao da Wikipedia Inglesa. Para as coleccoes Portuguesa e Espanhola, as quais sao significativamente mais pequenas, o mesmo metodo obteve um erro de previsao medio de 278 e 273 Kilometros, respectivamente, e um erro de previsao mediano de 28 e de 45 Kilometros.

[1]  Bruno Martins,et al.  A Machine Learning Approach for Resolving Place References in Text , 2010, AGILE Conf..

[2]  Ron Sivan,et al.  Web-a-where: geotagging web content , 2004, SIGIR '04.

[3]  Brendan T. O'Connor,et al.  A Latent Variable Model for Geographic Lexical Variation , 2010, EMNLP.

[4]  Pavel Serdyukov,et al.  Placing flickr photos on a map , 2009, SIGIR.

[5]  Gideon S. Mann,et al.  Learning from labeled features using generalized expectation criteria , 2008, SIGIR '08.

[6]  Trevor Darrell,et al.  Nearest-Neighbor Methods in Learning and Vision: Theory and Practice (Neural Information Processing) , 2006 .

[7]  Ben Taskar,et al.  Posterior Regularization for Structured Latent Variable Models , 2010, J. Mach. Learn. Res..

[8]  Jochen L. Leidner Toponym resolution in text , 2007 .

[9]  Pável Calado,et al.  A Comparison of Different Approaches for Assigning Geographic Scopes to Documents , 2009 .

[10]  Matthew Lease,et al.  Supervised language modeling for temporal resolution of texts , 2011, CIKM '11.

[11]  L. Hurni,et al.  Improved Density Estimation for the Visualisation of Literary Spaces , 2011 .

[12]  Hanan Samet,et al.  Multifaceted toponym recognition for streaming news , 2011, SIGIR.

[13]  Peter Z. Kunszt,et al.  Indexing the Sphere with the Hierarchical Triangular Mesh , 2007, ArXiv.

[14]  Krzysztof Janowicz,et al.  On the Geo-Indicativeness of Non-Georeferenced Text , 2012, ICWSM.

[15]  Geoffrey H. Dutton,et al.  Encoding and Handling Geospatial Data with Hierarchical Triangular Meshes , 1996 .

[16]  Claus Weihs,et al.  Calibrating Classifier Scores into Probabilities , 2006, GfKl.

[17]  Eva Erdmann Topographical Fiction: A World Map of International Crime Fiction , 2011 .

[18]  Jason Baldridge,et al.  Simple supervised document geolocation with geodesic grids , 2011, ACL.

[19]  Steven Skiena,et al.  Spatial Analysis of News Sources , 2006, IEEE Transactions on Visualization and Computer Graphics.

[20]  Bo Pang,et al.  Seeing Stars: Exploiting Class Relationships for Sentiment Categorization with Respect to Rating Scales , 2005, ACL.