Hybrider Ansatz zur automatisierten Themen-Klassifizierung von Produktrezensionen

ZusammenfassungIm Online-Handel werden durch Interaktionen von Kunden mit den Web-Plattformen enorme Datenmengen generiert. So zählt Kundenfeedback in Form von Produktrezensionen zu den unstrukturierten Daten, für deren Verarbeitung Ansätze aus dem Gebiet der Computerlinguistik und des maschinellen Lernens benötigt werden. Als Alternative zu den klassischen Ansätzen des überwachten und unüberwachten Lernens, welche im betrieblichen Kontext und der Anwendungsdomäne der Produktrezensionen oftmals an deren Grenzen stoßen, wird in diesem Artikel ein hybrider Ansatz zur Kategorisierung von Produktrezensionen vorgestellt, der die Vorteile des maschinellen Lernens und der menschlichen Expertise vereint. Ziel dieses Artikels ist es, einen Ansatz zu präsentieren, welcher es ermöglicht, automatisiert und basierend auf den Anforderungen aus der Praxis, strukturiert Themen und darauf bezogene Aspekte aus Produktrezensionen zu extrahieren. Mithilfe von Word2Vec werden semantische Beziehung der in den Rezensionen enthaltenen Wörter trainiert. Dadurch können einzelne Wörter mit vorher definierten Themen auf deren Ähnlichkeit untersucht werden und in den Rezensionen identifiziert und extrahiert werden. Dieser Ansatz wird am Beispiel eines Datensatzes von rund fünf Millionen Produktrezensionen der Online-Plattform Amazon demonstriert und dessen Ergebnisse mit denen eines gängigen Topic Modelling Ansatzes gegenübergestellt.AbstractIn e‑commerce, enormous amounts of data are generated through the interaction of customers with Web platforms. Customer feedback in the form of product reviews, for instance, is an example for unstructured data, which processing requires approaches from the fields of computer linguistics and machine learning. As an alternative to the classical approaches of supervised and unsupervised learning, which often reach their limits in the business context and the application domain of product reviews, this article presents a hybrid approach for categorizing product reviews that combines the advantages of machine learning and human expertise. The aim of this paper is to present an approach that allows to automatically extract structured topics and related aspects from product reviews based on practical requirements. Word2Vec is used to train semantic relationships between words that occur in product reviews. In this way, individual words of each review can be compared with in advance defined topic words regarding their similarity and can then be extracted from the reviews. This approach is demonstrated using around five million product reviews of the Amazon online platform. The results are getting compared with those from a common topic modelling technique.

[1]  Jeffrey Dean,et al.  Distributed Representations of Words and Phrases and their Compositionality , 2013, NIPS.

[2]  Greg M. Allenby,et al.  Sentence-Based Text Analysis for Customer Reviews , 2016, Mark. Sci..

[3]  Daniel A. Keim,et al.  Visual opinion analysis of customer feedback data , 2009, 2009 IEEE Symposium on Visual Analytics Science and Technology.

[4]  Christopher E. Moody,et al.  Mixing Dirichlet Topic Models and Word Embeddings to Make lda2vec , 2016, ArXiv.

[5]  Prakash Ishwar,et al.  Big Social Data Analytics in Journalism and Mass Communication , 2016 .

[6]  Murtaza Haider,et al.  Beyond the hype: Big data concepts, methods, and analytics , 2015, Int. J. Inf. Manag..

[7]  Ewan Klein,et al.  Natural Language Processing with Python , 2009 .

[8]  Franciska de Jong,et al.  ADM-LDA: An aspect detection model based on topic modelling using the structure of review sentences , 2014, J. Inf. Sci..

[9]  Charu C. Aggarwal,et al.  Mining Text Data , 2012 .

[10]  E. Longo,et al.  Effect of the heat flux direction on electrical properties of SrBi , 2004 .

[11]  Gary L. Frankwick,et al.  Effects of big data analytics and traditional marketing analytics on new product success: A knowledge fusion perspective , 2016 .

[12]  Peter Gluchowski Empirische Ergebnisse zu Big Data , 2014, HMD Praxis der Wirtschaftsinformatik.

[13]  Sven Rill,et al.  Evaluation of an algorithm for aspect-based opinion mining using a lexicon-based approach , 2013, WISDOM '13.

[14]  Justin Zhijun Zhan,et al.  Sentiment analysis using product review data , 2015, Journal of Big Data.

[15]  Xin Rong,et al.  word2vec Parameter Learning Explained , 2014, ArXiv.

[16]  Andreas Herrmann,et al.  An empirical study of the antecedents for radical product innovations and capabilities for transformation , 2007 .

[17]  Geng Cui,et al.  Terms of Use , 2003 .

[18]  Los Angeles,et al.  Probabilistic Topic Models for Graph Mining , 2014 .

[19]  Anton van den Hengel,et al.  Image-Based Recommendations on Styles and Substitutes , 2015, SIGIR.

[20]  Yiqun Liu,et al.  Rating-Boosted Latent Topics: Understanding Users and Items with Ratings and Reviews , 2016, IJCAI.

[21]  Alok N. Choudhary,et al.  Twitter Trending Topic Classification , 2011, 2011 IEEE 11th International Conference on Data Mining Workshops.