Latent variable model에 의한 바이러스 유형 분석

인유두종 바이러스(Human Papillomavirus: HPV)는 사마귀로부터 생식기 및 배설기의 침윤성 암에 이르기까지 여러 질병과 연관되어 있음이 알려져 있다. 현재 200종 이상이 알려져 있고, 이 중 85개는 전체 유전자가 밝혀져 있다. HPV 감염 시 만들어지는 단백질 중 E6, E7 단백질은 암 억제 유전자(p53, pRb)에 결합하여 세포의 암 억제 기능을 저하시키고 이로 인해 암을 발생시킨다. 본 논문은 암 발생과 밀접한 관련이 있는 HPV의 E6 단백질 서열과 HPV 유형(HPV Type)을 가지고, PLSA (Probabilistic Latent Semantic Analysis) 방법을 이용하여 HPV를 클러스터링(clustering) 해 보았다. 실험 결과, 특정 클러스터는 질병과 밀접하게 연관되어 있으며, 이와 관련된 주요 서열 분석이 가능함을 보여주고 있다.