히스토그램을 이용한 근사적 집단 연산과 효과적인 오차 추정

히스토그램은 데이타베이스 질의 최적기가 사용하는 통계정보 중의 하나이다. 최근에는 데이타베이스의 크기가 기하급수적으로 커짐에 따라, 데이타의 전체적인 성향을 빠르게 파악할 수 있는 방법의 하나로 히스토그램을 활용하는 방안이 고려되고 있다. 그를 위해서, 히스토그램에서 얻어진 근사값의 오차를 추정할 수 있는 방법이 요구되었다. 기존의 기법에서는 히스토그램의 각 버켓에 실제 빈도와 평균 빈도의 최대차를 추가하고, 이 값을 이용하여 오차 추정을 하였다. 그러나, 이 값이 히스토그램 버켓의 전체적인 데이타 분포를 잘 반영하지 못하기 때문에 실제 오차에 근접한 오차 추정을 할 수가 없는 단점이 있었다. 본 논문에서는 이를 극복하기 위해, 히스토그램에 데이타의 분포를 잘 반영하는 정보 즉, 평균값, COUNT/SUM 연산에 대한 최대 오차를 추가하였다. 이 정보들을 이용하여 실제 오차에 보다 근접한 오차 추정을 할 수 있었으며, 부가적으로 SUM/AVG 연산에 대한 보다 정확한 근사값을 얻을 수 있었다.