텍스트 마이닝을 기반으로 한 무용학 자료의 빅데이터 분석

본 연구는 무용학 연구와 빅데이터 분석의 학제간 연구 사례를 마련하고, 무용학 빅데이터 분석 시스템 개발에 도달하기 위한 기초 연구의 성격을 지닌다. 이를 위해, 빅데이터 분석 기법 중 글 속에서 의미 있는 정보를 추출해내는 텍스트 마이닝을 연구 방법으로 선택하였다. 연구 과정에서 형태소 분석, 사용자 사전 구축, 사회연결망 분석을 진행하여 춤 정보로서 유의미한 개체명을 추출하였다. 그리고 연구 과정에서 수집한 10,231건의 논문 데이터와 연구 결과인 품사 정보, 개체명 분류표를 빅데이터 분석 시스템에 탑재하였다. 연구 결과는 다음과 같다. 첫째, 전체 형태소의 종류는 25종으로 빈도수 100 이상 등장한 단어의 개수는 24,691개로 나타났다. 이 가운데 ‘춤’, ‘무’, ‘댄스’, ‘dance’를 포함한 문장에서 형태소 2차 분석을 진행한 결과, 빈도수 10 이상의 품사는 명사 3,057개, 고유명사 602개, 동사 352개, 숫자 205개, 형용사 135개, 부사 35개로 명사형이 압도적으로 많이 나타났다. 둘째, 사용자 사전은 분류 형태인, 상위어 · 하위어 구조로 계층화할 수 있었다. 구축된 사용자 사전에 포함된 용어의 개수는 2,404개이고, 주제, 인물, 작품, 장르, 이론, 기능, 요소, 시대 등으로 분류하였다. 셋째, 사회연결망 분석에 따르면 빅데이터의 지식은 ‘무용’을 중심으로 연결되며, 네트워크 안에서 ‘춤’, ‘예술’, ‘무용수’, ‘교육’, ‘문화’가 매개 중심성이 높았다. ‘댄스’는 별도의 노드로 ‘댄스스포츠’, ‘재즈’ 등으로 연결되었다. 본 연구는 텍스트 마이닝을 춤 기록에 적용하여 무용학 빅데이터를 구축하는 첫 시도라는데 의의를 가진다. 이를 초석으로 하여 앞으로 무용학 연구와 빅데이터 분석의 접점을 다각도로 밝히고 그 활용방안을 확대할 수 있을 것으로 기대한다.