Word Embedding Analysis for Biomedical Articles
暂无分享,去创建一个
요 약 워드 임베딩(word embedding)은 정보검색이나 기계학습에서 단어를 표현하기 위하여 사용되던 기존의 one-hot 벡터 방식의 희소공간 및 단어들 간의 관계정보를 유지할 수 없는 문제를 해결하기 위한 방법 이다. 워드 임베딩의 한 방법으로 word2vec은 최근 빠른 학습시간과 높은 효과를 얻을 수 있는 모델로 주목을 받고 있다. word2vec은 수행 시 주어지는 옵션인 벡터차원과 문맥크기에 의해 그 결과 품질이 상이하다. Mikolov는 구글 뉴스 문헌 집합에 대하여 word2vec을 실험하고, 적합한 옵션을 제시하였다. 본 논문에서는 구글 뉴스 문헌 같은 일반 문서가 아닌 생의학 분야에 특화된 문헌에 대하여 word2vec 에 대한 다양한 옵션을 실험하고, 생의학 문헌에 적합한 최적의 조건을 분석한다.
[1] Jeffrey Dean,et al. Efficient Estimation of Word Representations in Vector Space , 2013, ICLR.
[2] Geoffrey Zweig,et al. Linguistic Regularities in Continuous Space Word Representations , 2013, NAACL.
[3] Jeffrey Dean,et al. Distributed Representations of Words and Phrases and their Compositionality , 2013, NIPS.