AbstractThe reverse k-nearest neighbor (RkNN) problem, i.e. finding all objects in a data set the k-nearest
neighbors of which include a specified query object, has received increasing attention recently. Many
industrial and scientific applications call for solutions of the RkNN problem in arbitrary metric spaces
where the data objects are not Euclidean and only a metric distance function is given for specifying
object similarity. Usually, these applications need a solution for the generalized problem where the
value of k is not known in advance and may change from query to query. In addition, many applications
require a fast approximate answer of RkNN-queries. For these scenarios, it is important to generate
a fast answer with high recall. In this paper, we propose the first approach for efficient approximative
RkNN search in arbitrary metric spaces where the value of k is specified at query time. Our approach
uses the advantages of existing metric index structures but proposes to use an approximation of the
nearest-neighbor-distances in order to prune the search space. We show that our method scales significantly
better than existing non-approximative approaches while producing an approximation of the true query
result with a high recall.
ZusammenfassungIn den letzten Jahren hat das Reverse k-Nearest Neighbor (RkNN) Problem eine vermehrte Aufmerksamkeit
erfahren. Ziel ist es, alle Objekte in einer Datenbank zu finden, in deren k-nächster Nachbarumgebung
ein gegebenes Anfrageobjekt enthalten ist. Viele industrielle und wissenschaftliche Anwendungen benötigen
Lösungen des RkNN-Problems für beliebige metrische Räume. Dabei sind die Datenobjekte
nicht mehr notwendigerweise euklidisch, die Ähnlichkeit dery Objekte wird lediglich durch eine metrische
Distanzfunktion beschrieben. Üblicherweise benötigen diese Anwendungen eine Lösung für
das verallgemeinerte RkNN-Problem, bei dem der Wert von k im voraus unbekannt ist und sich außerdem
von Anfrage zu Anfrage ändern kann. Zusätzlich erfordern viele Applikationen eine schnelle,
näherungsweise Antwort auf RkNN-Anfragen. In diesen Fällen ist es von besonderer Wichtigkeit,
schnell eine Antwort mit hohem Recall zurückzuliefern. Wir schlagen den ersten Ansatz für
eine effiziente, näherungsweise RkNN-Suche in beliebigen metrischen Räumen vor, wobei der Wert
von k erst zur Anfragezeit angegeben werden muss. Unser Verfahren baut auf den Vorteilen existierender
metrischer Indexstrukturen auf und verwendet eine Abschätzung der Nächsten-Nachbar-Distanzen,
um den Suchraum zu beschränken. Wir zeigen, dass die von uns entwickelte Lösung signifikant
besser skaliert als existierende nicht-approximative Verfahren und unsere Antwortmenge einen hohen Recall
aufweist.
[1]
King-Ip Lin,et al.
An index structure for efficient reverse nearest neighbor queries
,
2001,
Proceedings 17th International Conference on Data Engineering.
[2]
Hans-Peter Kriegel,et al.
The X-tree : An Index Structure for High-Dimensional Data
,
2001,
VLDB.
[3]
S. Muthukrishnan,et al.
Influence sets based on reverse nearest neighbor queries
,
2000,
SIGMOD '00.
[4]
Manfred Schroeder,et al.
Fractals, Chaos, Power Laws: Minutes From an Infinite Paradise
,
1992
.
[5]
Pavel Zezula,et al.
M-tree: An Efficient Access Method for Similarity Search in Metric Spaces
,
1997,
VLDB.
[6]
Elke Achtert,et al.
Approximate reverse k-nearest neighbor queries in general metric spaces
,
2006,
CIKM '06.
[7]
Mong-Li Lee,et al.
ERkNN: efficient reverse k-nearest neighbors retrieval with local kNN-distance estimation
,
2005,
CIKM '05.
[8]
Yufei Tao,et al.
Reverse kNN Search in Arbitrary Dimensionality
,
2004,
VLDB.
[9]
Amit Singh,et al.
High dimensional reverse nearest neighbor queries
,
2003,
CIKM '03.
[10]
Flip Korn,et al.
Influence sets based on reverse nearest neighbor queries
,
2000,
SIGMOD 2000.
[11]
Elke Achtert,et al.
Efficient reverse k-nearest neighbor search in arbitrary metric spaces
,
2006,
SIGMOD Conference.
[12]
Divyakant Agrawal,et al.
Reverse Nearest Neighbor Queries for Dynamic Databases
,
2000,
ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery.
[13]
Antonin Guttman,et al.
R-trees: a dynamic index structure for spatial searching
,
1984,
SIGMOD '84.
[14]
Hans-Peter Kriegel,et al.
The R*-tree: an efficient and robust access method for points and rectangles
,
1990,
SIGMOD '90.
[15]
Chris H. Q. Ding,et al.
Minimum Redundancy Feature Selection from Microarray Gene Expression Data
,
2005,
J. Bioinform. Comput. Biol..
[16]
Pavel Zezula,et al.
A cost model for similarity queries in metric spaces
,
1998,
PODS '98.