Angesichts des exponentiell wachsenden Informationsangebots im World Wide Web hat sich die Suche nach relevanten Ressourcen und Datenquellen mit der Zeit zu einem eigenstandigen Problem entwickelt. Allgemeine Web-Suchmaschinen verwenden fur die Erstellung der Rangliste der Treffer Autoritatswerte, die durch Linkanalyseverfahren auf reprasentativen Web-Ausschnitten bestimmt werden (ggf. kombiniert mit textbasierter Dokument-Query Ahnlichkeit). Diese Vorgehensweise scheitert jedoch oft bei sehr spezifischen fachlichen Anfragen mit insgesamt kleinem Recall. Daruber hinaus bleiben zahlreiche ’Hidden Web’ Informationsquellen (z.B. die Datenbanken der Informationsportale) fur konventionelle Crawler nicht zuganglich. Die Web-Suchmaschine des Projektes HIP (Handwerks-Informations-Portal), eines Kooperationsprojektes der Universitat des Saarlandes, der saarlandischen Handwerkskammer und der saarbrucker Hochschule fur Technik und Wirtschaft) kombiniert die Vorteile eines fokussierten Crawlers mit automatischer Erweiterung der Trainingsbasis, eines Frameworks fur automatisch erkannte, klassifizierte und als Web Services gekapselte ’Hidden Web’-Informationsquellen sowie einer Suchmaschine mit erweiterten Ranking-Moglichkeiten fur Web-Expertensuche. Dieses Papier beschreibt die Architektur des HIP-Frameworks, einzelne Komponenten des Suchsystems sowie die ersten Ergebnisse der Evaluation des Prototyps.
[1]
Gerhard Weikum,et al.
The BINGO! focused crawler: from bookmarks to archetypes
,
2002,
Proceedings 18th International Conference on Data Engineering.
[2]
Chaomei Chen,et al.
Mining the Web: Discovering knowledge from hypertext data
,
2004,
J. Assoc. Inf. Sci. Technol..
[3]
Yiming Yang,et al.
A Comparative Study on Feature Selection in Text Categorization
,
1997,
ICML.
[4]
David G. Stork,et al.
Pattern Classification
,
1973
.
[5]
Thorsten Joachims,et al.
Learning to classify text using support vector machines - methods, theory and algorithms
,
2002,
The Kluwer international series in engineering and computer science.
[6]
Vladimir Vapnik,et al.
Statistical learning theory
,
1998
.
[7]
Gerhard Weikum,et al.
The BINGO! System for Information Portal Generation and Expert Web Search
,
2003,
CIDR.
[8]
Hinrich Schütze,et al.
Book Reviews: Foundations of Statistical Natural Language Processing
,
1999,
CL.