Die nicht standardisierte, fehlerhafte und unvollstandige Erfassung von Autorenadressen („Affiliations“) in den grosen interdisziplinaren Literaturdatenbanken Web of Science (WoS) und Scopus stellt eine erhebliche Herausforderung fur bibliometrische Analysen uberall dort dar, wo es auf eine genaue und verlassliche Zuordnung der Publikationen zu Institutionen ankommt. Mit den Autorenadressen sind eine Reihe von Problemen verbunden, fur die es nicht in jedem Fall einfache Losungen gibt. Am bekanntesten ist das Problem der unterschiedlichen Schreibweisen („spelling variants“) von Adressen, dem die Datenbankhersteller seit einiger Zeit durch eigene Bemuhungen zur (Teil-) Standardisierung der Adresseintrage zu begegnen versuchen. Diesen Ansatzen sind jedoch Grenzen gesetzt, auch weil die Adressangaben schon in den Originalartikeln der wissenschaftlichen Zeitschriften nicht selten ungenau und unvollstandig sind. Die Zeitschriften arbeiten mit unterschiedlichen (bzw. gar keinen) Vorgaben fur die Autoren hinsichtlich der Nennung der relevanten Adressen und auch die Forschungsinstitutionen selbst machen in Deutschland bisher uberwiegend keine entsprechenden Vorgaben fur ihre eigenen Mitarbeiter. Bei der Zuordnung der Autorenadressen zu Forschungseinrichtungen geht es aber um mehr als eine blose Vereinheitlichung unterschiedlicher Schreibweisen. Neben der grundlegenden Aufgabe einer Zusammenfassung bzw. Standardisierung der auftretenden Varianten von Institutionsnamen stellt vor allem die Identifikation der jeweils „richtigen“ real (in Gegenwart oder Vergangenheit) existierenden Institution zu den Adressen eine Herausforderung dar. Nicht nur fehlende Standards zur Angabe von Adressen in wissenschaftlichen Publikationen, sondern auch komplexe institutionelle Strukturen (z.B. Hierarchien oder Beziehungen zwischen Institutionen) und ihr Wandel uber die Zeit konnen eine eindeutige Zuordnung erheblich erschweren. In diesem Beitrag werden Ergebnisse eines Projekts vorgestellt, das im Kontext des im Aufbau befindlichen Kompetenzzentrums Bibliometrie fur die deutsche Wissenschaft durchgefuhrt wird. Das Projekt hat die Gewinnung einer moglichst vollstandigen, verlasslichen und nachhaltig nutzbaren Zuordnung der in WoS bzw. Scopus erfassten Publikationen mit deutschen Adressen zu real existierenden deutschen Institutionen zum Ziel. Die Ergebnisse werden mit einem teilautomatischen Verfahren erzielt, in dem die Erkennung von Textmustern in den Adressen eine wesentliche Rolle spielt. Zur Abbildung der Institutionendynamik werden auch Daten mit Zeitangaben zur Entwicklung der Institutionen und Sektoren der deutschen Forschungslandschaft erfasst. Ein Informationsaustausch mit interessierten Hochschulen und auseruniversitaren Forschungseinrichtungen in Deutschland ist in Bezug auf die sie jeweils betreffenden Datensatze moglich, soweit die lizenzrechtlichen Voraussetzungen erfullt sind.
[1]
Félix de Moya Anegón,et al.
Standardizing formats of corporate source data
,
2007,
Scientometrics.
[2]
Henk F. Moed,et al.
The unification of addresses in scientific publications
,
1990
.
[3]
Ronald Rousseau,et al.
Institution name disambiguation for research assessment
,
2013,
Scientometrics.
[4]
Thed N. van Leeuwen,et al.
New bibliometric tools for the assessment of national research performance: Database description, overview of indicators and first applications
,
1995,
Scientometrics.
[5]
Martin Enserink,et al.
Are You Ready to Become a Number?
,
2009,
Science.
[6]
Félix de Moya Anegón,et al.
The unification of institutional addresses applying parametrized finite-state graphs (P-FSG)
,
2006,
Scientometrics.
[7]
Fernanda Morillo,et al.
Towards the automation of address identification
,
2012,
Scientometrics.
[8]
Sjoerd Hardeman.
Organization level research in scientometrics: a plea for an explicit pragmatic approach
,
2012,
Scientometrics.
[9]
Jean-Charles Lamirel,et al.
Efficient supervised and semi-supervised approaches for affiliations disambiguation
,
2013,
Scientometrics.