생명의료 문헌에서 단백질 간 상호작용 정보 추출 성능 향상을 위한 개선된 WSD 방법

본 논문은 단백질 간 상호작용 정보 추출 성능을 향상시키기 위하여 동형이의어 형태인 단어의 의미 모호성을 해소하는 방법에 대하여 제안한다. 동형이의어는 단백질 간 상호작용 정보 추출 성능에 악영향을 끼침으로 본 논문에서는 중의적인 단어의 의미 명료성을 측정하여 단백질 간 상호작용 추출 성능을 향상시킬 수 있는 연구를 수행한다. 그 결과 지식베이스를 기반으로 수행하는 대표적인 WSD 방법 중 하나인 SSI 알고리즘을 개선하여 중의어가 갖는 의미의 개수와 각 의미들의 빈도수를 이용하여 기존 연구의 정확도 성능을 최대 약 15.004%까지 향상시켰다. 특히, 빈번히 사용되는 개념일수록 동시 출현하는 단어들과 밀접한 연관성이 있음을 확인할 수 있었다.