효과적인 중복 포스트 검출 기법

최근, 블로그 사용이 활성화됨에 따라 중복포스트가 다량 생성되고 있다. 이 중복포스트들은 블로그 검색 성능 및 품질을 저하시킬 뿐만 아니라 원본 포스트와의 저작권의 문제를 발생시키기 때문에 이를 검출하고 필터링하는 것이 웹 검색 엔진에서 중요한 문제이다. 본 논문은 대용량 블로그 데이터베이스 환경에 적합한 중복포스트 검출 기법을 제안한다. 또한 이를 이용하여 블로그 포스트 검색 인덱스에 반영하지 않는 방안을 제안한다. 다양한 실험을 통하여 제안하는 기법의 우수성을 검증한다.