Con la evolución de las tecnologı́as de información y comu nicación, han surgido almacenamientos no estructurados de información. No sólo se consultan nuevos tipos de datos tales como texto libre, imágenes, audio y video; sino que además, en algunos casos, ya no se puede estr ucturar más la información en claves y registros. Aún cuando sea posible una estructuración clásica, nuev as aplicaciones tales como la minerı́a de datos requieren acceder a la base de datos por cualquier campo y no sólo por aq uellos marcados como “claves”. Los escenarios anteriores requieren modelos más generale s tales comobases de datos de texto o espacios métricos, entre otros; y contar con herramientas que permitan realiz ar búsquedas eficientes sobre estos tipos de datos. Las técnicas que emergen desde estos campos muestra n n área de investigación propicia para el desarrollo de herramientas que resuelvan eficientemente los problemas involucrados en la administración de bases de datos no convencionales. La búsqueda por similitud es un tema de investigación que a bstrae varias nociones de las ya mencionadas. Este problema se puede expresar como sigue: dado un conjunto de objetos de naturaleza desconocida, una función de distancia definida entre ellos, que mide cuán diferentes son, y dado otro objeto, llamado la consulta, encontrar todos los elementos del conjunto suficientemente similares la consulta. El conjunto de objetos junto con la función de distancia se denomina espacio métrico [3]. En algunas aplicaciones, los espacios métricos resultan s er de un tipo particular llamado “espacio vectorial”, donde los elementos consisten de D coordenadas de valores reales. Existen muchos trabajos que explotan las propiedades geométricas sobre espacios vectoriales (ver [5] para más detalles); pero normalmente éstas no se pueden extender a los espacios métricos generales. Por otra parte, una base de datos de texto es un sistema que deb e proveer acceso eficiente a grandes volúmenes de texto no estructurado, donde existe la necesidad de const ruir ı́ndices que no sólo permitan realizar búsquedas eficientes de patrones ingresados por el usuario, sino que ad emás usen tan poco espacio como sea posible. En el escenario más simple, el texto se ve como una secuencia de s ́ ımbolos y el patrón a buscar como otra secuencia más breve, y ası́ el problema de búsqueda consiste en encon trar todas las apariciones del patrón en el texto, y en algunos casos admitiendo un número pequeño de errores. La necesidad de una respuesta rápida y adecuada, y un eficien t uso de memoria, hace necesaria la existencia de estructuras de datos especializadas que incluyan estos a spectos. En particular, nos vamos a dedicar a dos tipos de bases de datos no convencionales: los Espacios Ḿetricos y las Bases de Datos de Texto , y cómo resolver eficientemente no sólo las búsquedas en esos ámbitos, sin también algunas otras operaciones de interés en el área de bases de datos. Por lo tanto, la investigación apunta a po ner estas nuevas bases de datos a un nivel de madurez similar al de las bases de datos tradicionales.
[1]
Gonzalo Navarro,et al.
A metric index for approximate string matching
,
2002,
Theor. Comput. Sci..
[2]
Pavel Zezula,et al.
Similarity Join in Metric Spaces
,
2003,
ECIR.
[3]
Ian H. Witten,et al.
Text Compression
,
1990,
125 Problems in Text Algorithms.
[4]
Gonzalo Navarro.
Searching in metric spaces by spatial approximation
,
2002,
The VLDB Journal.
[5]
Ricardo A. Baeza-Yates,et al.
Searching in metric spaces
,
2001,
CSUR.
[6]
Oliver Günther,et al.
Multidimensional access methods
,
1998,
CSUR.
[7]
Gonzalo Navarro,et al.
Indexing text using the Ziv-Lempel trie
,
2002,
J. Discrete Algorithms.