End-to-end Neural Model for Keyphrase Extraction using Twitter Hash-tag Data

키워드는 문서 또는 문장의 내용을 함축하여 몇 개의 단어로 이루어지는 표현이다. 이는 문장의 내용을 함축 하고 있으며 매우 가치 있는 정보이다. 인터넷의 발전으 로 데이터가 급속도로 증가함에 따라 이러한 함축적인 정보를 가지는 키워드의 중요성은 더욱 커지고 있는 추 세이다. 한편, 트위터는 대중적인 소셜 네트워크 서비스(SNS) 중 하나로, 트윗(Tweet)을 이용하여 최대 140자의 단문 을 주고받는 서비스이다. 트위터에는 해시 태그 (Hash-Tag, #)를 이용하여 핵심 단어나 주요 토픽들을 링크하게 되는데 이러한 단어들은 주로 해당 트윗의 키 워드로 사용되게 된다. 본 논문에서는 트위터의 해시 태그의 단어와 트윗 문 장을 이용하여 데이터 셋을 구축한다. 구축된 트위터 데 이터 셋을 이용하여 Scoring 구조의 End-to-end Neural 모델을 학습하고 성능을 측정할 것이다.

[1]  Luke S. Zettlemoyer,et al.  End-to-end Neural Coreference Resolution , 2017, EMNLP.

[2]  G. G. Stokes "J." , 1890, The New Yale Book of Quotations.

[3]  Jiawei Han,et al.  Automatic Construction and Ranking of Topical Keyphrases on Collections of Short Documents , 2014, SDM.

[4]  Jing Li,et al.  Encoding Conversation Context for Neural Keyphrase Extraction from Microblog Posts , 2018, NAACL.

[5]  Xin Jiang,et al.  A ranking approach to keyphrase extraction , 2009, SIGIR.

[6]  Timo Honkela,et al.  A Language-Independent Approach to Keyphrase Extraction and Evaluation , 2008, COLING.

[7]  Jürgen Schmidhuber,et al.  Long Short-Term Memory , 1997, Neural Computation.

[8]  Abdelghani Bellaachia,et al.  NE-Rank: A Novel Graph-Based Keyphrase Extraction in Twitter , 2012, 2012 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology.