Un motor de búsqueda para la investigación experimental en Recuperación de la Informaciónmediante SQL.

Research on Information Retrieval shows a remarkable growth nowadays, due to the availability of documents in electronic format. One of the research fields is the experimentation with algorithms referring to any of the tasks that can occur in the retrieval process. This research requires, among other things, of tools that allow the accomplishment of experiments. Between those tools they are the search engines; this report shows how to design a search engine using a Relational Data Base Management System and SQL sentences. DPTOIA-IT-2005-002 iii Índice 1. Introducción 1 2. Motores experimentales de recuperación 1 3. Objetivos 3 4. El modelo vectorial 4 4.1. El peso de los términos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4.2. Esquemas de peso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5. Implementación 6 5.1. Estructura básica de la base de datos . . . . . . . . . . . . . . . . . . . . . . . . . 6 5.2. Entrada de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 5.3. Cálculo de pesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 5.3.1. La frecuencia del término en el documento . . . . . . . . . . . . . . . . . . 7 5.3.2. El IDF y el peso sin normalizar . . . . . . . . . . . . . . . . . . . . . . . . 9 5.3.3. El factor de normalización y pesos definitivos . . . . . . . . . . . . . . . . 11 5.4. Pesos de las consultas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 5.5. Resolución de consultas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 6. Conclusiones 13 iv DPTOIA-IT-2005-002 Un motor de búsqueda para la investigación experimental en RI mediante SQL.

[1]  James Allan,et al.  Automatic Routing and Ad-hoc Retrieval Using SMART: TREC 2 , 1993, TREC.

[2]  José Luis Alonso Berrocal,et al.  Recuperacin de informacin utilizando el modelo vectorial. Participacin en el taller CLEF-2001 , 2002 .

[3]  Gerald Salton,et al.  Automatic text processing , 1988 .

[4]  William B. Frakes,et al.  Introduction to Information Storage and Retrieval Systems , 1992, Information Retrieval: Data Structures & Algorithms.

[5]  Ophir Frieder,et al.  Using Relevance Feedback within the Relational Model for TREC-5 , 1996, TREC.

[6]  James Allan,et al.  Automatic Query Expansion Using SMART: TREC 3 , 1994, TREC.

[7]  Gerard Salton,et al.  The SMART Retrieval System—Experiments in Automatic Document Processing , 1971 .

[8]  Vijay V. Raghavan,et al.  A critical investigation of recall and precision as measures of retrieval system performance , 1989, TOIS.

[9]  Chaomei Chen,et al.  Mining the Web: Discovering knowledge from hypertext data , 2004, J. Assoc. Inf. Sci. Technol..

[10]  Nicholas J. Belkin,et al.  Retrieval techniques , 1987 .

[11]  Chris Buckley,et al.  New Retrieval Approaches Using SMART: TREC 4 , 1995, TREC.

[12]  Ophir Frieder,et al.  Integrating Structured Data and Text: A Relational Approach , 1997, J. Am. Soc. Inf. Sci..

[13]  Christopher J. Fox,et al.  Lexical Analysis and Stoplists , 1992, Information Retrieval: Data Structures & Algorithms.

[14]  Gerard Salton,et al.  Term-Weighting Approaches in Automatic Text Retrieval , 1988, Inf. Process. Manag..

[15]  Ophir Frieder,et al.  Integrating structured data and text: a relational approach , 1997 .