Detección de Patrones Psicolingüísticos para el Análisis de Lenguaje Subjetivo en Español

OBJETIVOS. La clasificacion automatica de opiniones requiere un esfuerzo multidisciplinario, donde la linguistica y el procesamiento del lenguaje natural juegan un rol importante. Un aspecto importante a considerar en la clasificacion de opiniones es el lenguaje figurado tal como la ironia, el sarcasmo y la satira, ya que el doble sentido expresado en una opinion o comentario puede invertir la polaridad de la opinion. El objetivo principal de esta tesis es la deteccion de patrones psicolinguisticos para el analisis de lenguaje subjetivo en espanol. Especificamente, se establecieron 4 objetivos especificos: 1) diseno de un metodo para la deteccion de patrones psicolinguisticos para el analisis de sentimientos; 2) diseno de un metodo para la deteccion de patrones psicolinguisticos para el analisis de textos satiricos y no satiricos; 3) validacion del metodo para el analisis de sentimientos en diversos dominios como el turistico y peliculas; 4) validacion del metodo para la deteccion automatica de la satira en el dominio de noticias. METODOLOGIA. Para lograr este objetivo, primero se lleva a cabo un estudio del estado del arte que incluye tecnologias de procesamiento de lenguaje natural, analisis de sentimientos y lenguaje subjetivo. Especificamente, los diferentes niveles de procesamiento, principales enfoques del analisis de sentimientos, niveles de procesamiento de la opinion, bases de conocimiento, recursos linguisticos disponibles y principales tecnicas para la deteccion del lenguaje figurado. Posteriormente, se realiza el diseno e implementacion de un metodo para el analisis de sentimientos y deteccion de la satira basados en caracteristicas psicolinguisticas. Finalmente, la propuesta se valida en diferentes dominios. Concretamente, el metodo de analisis de sentimientos se aplica al dominio turistico y de peliculas; y el metodo de deteccion de la satira se aplica en el dominio de noticias en redes sociales. RESULTADOS. Como resultado se obtiene: o Un metodo para la clasificacion de sentimientos y deteccion de la satira. Este metodo permite clasificar opiniones como positivas, negativas, neutras, muy positivas y muy negativas y tweets como satiricos y no satiricos. o Un proceso para el pre-procesamiento de tweets en espanol. o Un corpus en el dominio del turismo. El corpus contiene 1600 opiniones sobre hoteles, restaurantes, museos, entre otros temas, las cuales son clasificadas con su respectiva polaridad (positivo, negativo, neutro, muy positivo, muy negativo). o Un corpus de tweets satiricos y no satiricos. Este corpus consiste en un conjunto de 10000 tweets etiquetados como satiricos y no satiricos extraidos desde diversas cuentas de Twitter. o Un conjunto de caracteristicas psicolinguisticas para la clasificacion de sentimientos y deteccion de la satira. CONCLUSIONES. La clasificacion automatica de opiniones requiere un esfuerzo donde la linguistica y el procesamiento del lenguaje natural juegan un rol importante. Gracias a estas disciplinas fue posible entender de mejor manera el lenguaje humano, clasificar las opiniones y resumir los sentimientos expresados en textos. Por otro lado, el lenguaje figurado es uno de los temas mas dificiles del PLN, ya que a diferencia del lenguaje literal, el escritor toma ventaja de diversas figuras linguisticas tales como la metafora, la analogia, la ambiguedad, entre otros, para proyectar significados mas complejos. Este tipo de lenguaje es dificil de entender no solo para las computadoras, sino tambien para el ser humano. Esta tesis describio un metodo para la deteccion de patrones psicolinguisticos para el analisis de sentimientos y la deteccion automatica de la satira. Las caracteristicas psicolinguisticas, junto con tecnicas de procesamiento de lenguaje natural y mineria de datos, resultaron ser efectivas para la deteccion de sentimientos y de la satira. Ademas, la validacion de los metodos en diversos dominios ha demostrado la efectividad de nuestro enfoque para clasificar opiniones y tweets. AIMS OF THE THESIS. The linguistic and natural language processing play an important role in the automatic classification of opinions. Furthermore, the figurative language is an important aspect to be considered in sentiment analysis, because of the double meaning expressed in the opinion can reverse the polarity of an opinion. The main goal of this thesis is to detect psycholinguistic patterns for the analysis of subjective language in Spanish. Four specific aims are established: 1) design of a method for detecting psycholinguistic patterns for sentiment analysis; 2) design of a method for detecting psycholinguistic patterns for the analysis of satirical texts; 3) validation of the method for sentiment analysis in different contexts, namely, tourism and movies domains; 4) validation of the method for automatic detection of satire in the news domain. METHODOLOGY. The methodology proposed is based on the analysis of the state of the art. This analysis includes technologies such as natural language processing, sentiment analysis, and subjective language. Furthermore, this task involves the analysis of the different levels of natural language processing, sentiment analysis approaches, levels of processing of opinions, knowledge bases, available linguistic resources, and main techniques for the detection of figurative language. Subsequently, a psycholinguistic features-based method for the sentiment analysis and detection of satire is designed and implemented. Finally, the proposal is validated in different domains. Specifically, the method of sentiment analysis is applied to the tourist and movies domain, and the method of satire detection is applied in the news domain in social networks. RESULTS. The main contributions of this work are: o A method for sentiment analysis and detection of satire. This method classifies opinions as positive, negative, neutral, very positive and very negative; and tweets as satirical and non-satirical. o A process for the pre-processing of tweets in Spanish. o A corpus in the tourism domain. The corpus contains 1600 reviews about hotels, restaurants, museums, among other topics, which are classified with their respective polarity (positive, negative, neutral, very positive, very negative). o A corpus of satirical and non-satirical tweets. This corpus consists of 10000 tweets tagged as satirical and non-satirical. These tweets were extracted from different Twitter accounts. o A set of psycholinguistic features for the sentiment analysis and detection of satire. CONCLUSIONS. The automatic classification of opinions requires a multidisciplinary approach where linguist and natural language processing need to be involved. Theses disciplines allow understanding the human language, classify opinions and summarize the sentiment expressed about a product, and other aspects. However, the figurative language expressed in some texts uses linguistic figures such as metaphor, analogy, and ambiguity, among others. This fact makes difficult to understand this kind of language, not only for computers but also by humans. This thesis described a method for the detection of psycholinguistic patterns for sentiment analysis and the automatic detection of satire. The psycholinguistic features, in conjunction with natural language processing and data mining technologies, demonstrated to be effective for the detection of sentiments and satire. In addition, the validation of the method in different domains verified its effectiveness for the classification of opinions and tweets.