동적 분할에 의한 평균 빙산 질의 처리

평균 빙산 질의란 대용량의 데이타들에 대해 avg 집단 함수를 수행한 뒤 임계값 이사인 데이타들을 결과로 출력하는 연산을 의미한다. 이 때 데이타 도메인의 크기가 메모리에 생성할 수 있는 카운터의 수보다 크기 때문에 연산 처리가 어렵다. 지난 연구에서 빙산 질의에 대해 제안한 해시 카운터는 avg 연산의 경우 착오누락이 발생한다는 문제점이 존재한다. 그래서 이런 문제점들을 해결하며 효율적으로 연산을 수행하기 위해, 데이타베이스를 분할하여 카운터를 관리하는 ‘메모리 Full 분할’, ‘후보 Full 분할’의 두 알고리즘을 제안한다. 실험결과 두 알고리즘은 메모리 크기, 데이타 분포, 데이타 순서에 영향을 받았는데, 데이타들이 정렬이 되어있거나 데이타분포가 정규분포를 이룰 때 우수한 성능을 보였다.