Institutionenkodierung als Grundlage für bibliometrische Indikatoren

Die nicht standardisierte, fehlerhafte und unvollstandige Erfassung von Autorenadressen („Affiliations“) in den grosen interdisziplinaren Literaturdatenbanken Web of Science (WoS) und Scopus stellt eine erhebliche Herausforderung fur bibliometrische Analysen uberall dort dar, wo es auf eine genaue und verlassliche Zuordnung der Publikationen zu Institutionen ankommt. Mit den Autorenadressen sind eine Reihe von Problemen verbunden, fur die es nicht in jedem Fall einfache Losungen gibt. Am bekanntesten ist das Problem der unterschiedlichen Schreibweisen („spelling variants“) von Adressen, dem die Datenbankhersteller seit einiger Zeit durch eigene Bemuhungen zur (Teil-) Standardisierung der Adresseintrage zu begegnen versuchen. Diesen Ansatzen sind jedoch Grenzen gesetzt, auch weil die Adressangaben schon in den Originalartikeln der wissenschaftlichen Zeitschriften nicht selten ungenau und unvollstandig sind. Die Zeitschriften arbeiten mit unterschiedlichen (bzw. gar keinen) Vorgaben fur die Autoren hinsichtlich der Nennung der relevanten Adressen und auch die Forschungsinstitutionen selbst machen in Deutschland bisher uberwiegend keine entsprechenden Vorgaben fur ihre eigenen Mitarbeiter. Bei der Zuordnung der Autorenadressen zu Forschungseinrichtungen geht es aber um mehr als eine blose Vereinheitlichung unterschiedlicher Schreibweisen. Neben der grundlegenden Aufgabe einer Zusammenfassung bzw. Standardisierung der auftretenden Varianten von Institutionsnamen stellt vor allem die Identifikation der jeweils „richtigen“ real (in Gegenwart oder Vergangenheit) existierenden Institution zu den Adressen eine Herausforderung dar. Nicht nur fehlende Standards zur Angabe von Adressen in wissenschaftlichen Publikationen, sondern auch komplexe institutionelle Strukturen (z.B. Hierarchien oder Beziehungen zwischen Institutionen) und ihr Wandel uber die Zeit konnen eine eindeutige Zuordnung erheblich erschweren. In diesem Beitrag werden Ergebnisse eines Projekts vorgestellt, das im Kontext des im Aufbau befindlichen Kompetenzzentrums Bibliometrie fur die deutsche Wissenschaft durchgefuhrt wird. Das Projekt hat die Gewinnung einer moglichst vollstandigen, verlasslichen und nachhaltig nutzbaren Zuordnung der in WoS bzw. Scopus erfassten Publikationen mit deutschen Adressen zu real existierenden deutschen Institutionen zum Ziel. Die Ergebnisse werden mit einem teilautomatischen Verfahren erzielt, in dem die Erkennung von Textmustern in den Adressen eine wesentliche Rolle spielt. Zur Abbildung der Institutionendynamik werden auch Daten mit Zeitangaben zur Entwicklung der Institutionen und Sektoren der deutschen Forschungslandschaft erfasst. Ein Informationsaustausch mit interessierten Hochschulen und auseruniversitaren Forschungseinrichtungen in Deutschland ist in Bezug auf die sie jeweils betreffenden Datensatze moglich, soweit die lizenzrechtlichen Voraussetzungen erfullt sind.