Open Access zu Daten

Wissenschaftliche Daten, ihre Organisation und Nutzung über Datenzentren und Data Sharing werden für die Forschung immer wichtiger. Open Access sollte daher auch die Forschungsdaten umfassen. Da alle Publikationen in den empirischen Wissenschaften letztlich auf Daten fußen, gilt die Berliner Erklärung für Daten in gleicher Weise wie für Publikationen. Daten liegen teils als selbständige Sammlungen vor, teils werden sie indirekt, z.B. über Links in Publikationen, nachgewiesen.

Daten werden zum größten Teil in der herkömmlichen akademischen bzw. universitären Forschung (Small Science) gewonnen. Wegen der Breite und Vielfalt der Forschung liegt in diesem Bereich das größte Potenzial von Open Access für die (Nach-) Nutzung von Daten. In ganz anderer Weise unterstreichen Fälle der Datenmanipulation oder -fälschung in jüngster Zeit die Notwendigkeit von Open Access für die Verifizierung bzw. Reproduzierbarkeit von Forschungsergebnissen. (Da Forschungsdaten zunehmend umfangreicher und komplexer werden, werden sie nur noch selten - beispielsweise in Tabellenform - in den Arbeiten selbst präsentiert.)

Besonders datenintensiv ist die Großforschung (Big Science): Fächer wie Bioinformatik und die (beobachtenden) Geo-/Umweltwissenschaften basieren primär auf Daten, deren Gewinnung, Analyse und Interpretation oft über verschiedene arbeitsteilige Instanzen erfolgt. Großforschung ist überwiegend kooperativ organisiert; Musterbeispiele für den derzeit stattfindenden Strukturwandel in Richtung e-Science sind hier anzutreffen. Die Kooperationspartner sind hier als Nutzende und Zulieferer über ein Data Sharing verbunden, wobei die Daten in - oft vernetzten oder zu Clustern zusammengefassten - Datenzentren oder Datenbanken gespeichert sind.

Gerade ein freier Zugang zu Daten macht sich durch einen erheblichen Mehrwert bezahlt und eröffnet der Forschung ganz neue Möglichkeiten. Herausragende Erfolgsbeispiele sind GenBank und Protein Structure Database: "The success of the genome project is in no small part due to the fact that the world's entire library of published DNA sequences has been an open access public source for the past 20 years. If sequences could be obtained only in the way that traditionally published work can be obtained - there would be no genome project" (Patrick Brown 2004). Unter Heranziehung historischer DNA-, Umwelt- und anderer Daten konnten, um ein anderes Anwendungsbeispiel zu nennen, Verbreitungsmuster der Cholera gefunden werden, die auf andere Weise nicht sichtbar geworden wären.

Vorteile des Open Access zu Daten

Zusammengefasst gehören zu den wesentlichen Vorteilen des Open Access zu Daten:

  • Verifizierbarkeit und kritische Überprüfbarkeit datenbasierter Forschungsergebnisse
  • Vermeidung unnötiger Duplizierung von Forschungsarbeit
  • Umfassende wissenschaftliche Auswertung der Daten und Verwertung (z.B. in Folgeprojekten)
  • Beschleunigung des Forschungsprozesses durch Data Sharing
  • Erzielung neuer Erkenntnisse durch Zusammenführung von Daten aus verschiedenen Quellen
  • Informeller Mehrwert und Erstellung höherwertiger Datenprodukte (z.B. Indizes, Datenbanken) durch Zusammenführung von Daten
  • Bessere Kosteneffizienz gemeinsam aufgebauter und genutzter Datensammlungen
  • Förderung der öffentlichen und wirtschaftlichen Nachnutzung von Daten

Förderung von Open Access zu Daten durch Wissenschaftsorganisationen

In einigen Disziplinen wie Astrophysik, Hochenergiephysik und Molekulargenetik ist es üblich, Daten schon kurz nach ihrer Erfassung zugänglich zu machen, Publikationen mit Links auf die Datenquellen zu versehen oder die zu einer Publikation gehörigen Daten in eine zentrale Datenbank einzustellen.

CODATA (Committee on Data for Science), eine Unterorganisation des International Council for Science (ICSU) und die internationale Organisation im Bereich des Qualitätsmanagements und Austauschs wissenschaftlicher Daten, befürwortet den offenen Zugang zu Daten in ihren 2002 publizierten Principles for Dissemination of Scientific Data.

Das Committee for Scientific and Technological Policy (CSTP) der OECD befürwortet in seiner Declaration on Access to Research Data from Public Funding unter Wahrung rechtlicher und wirtschaftlicher Interessen grundsätzlich einen freien Zugang zu Forschungsdaten.

Die National Institutes of Health (NIH) binden Förderzusagen ab $500.000 an die Verpflichtung zu Data Sharing. Der Wellcome Trust fordert in seiner Policy on data management and sharing (Januar 2007) das Data Sharing von Daten, die aus von ihm geförderter Forschung hervorgehen, und bindet Bewilligungen - im Einklang mit seinem Position statement in support of open and unrestricted access to published research - an eine möglichst unbeschränkte Verfügbarkeit von Forschungsergebnissen. Die Strategie und das Arbeitsprogramm der Helmholtz-Gemeinschaft beinhalten die Speicherung wissenschaftlicher Primärdaten in den Datenzentren der Gemeinschaft. Die Deutsche Forschungsgemeinschaft (DFG) verpflichtet Projektnehmer (nur) zur Archivierung der Daten für einen Zeitraum von mindestens fünf Jahren.

Die mit Beiträgen des Schweizerischen Nationalfonds erhobenen Daten sind auch anderen Forschenden für die Sekundärforschung zur Verfügung zu stellen und gemäss den Vorschriften des SNF in anerkannte wissenschaftliche Datensammlungen einzubringen.

Anforderungen an die Veröffentlichung von Daten

Eine Reihe von Anforderungen wie Datenintegrität oder Langzeitverfügbarkeit decken sich mit denen für wissenschaftliche Publikationen. Wichtig sind

  • das Sicherstellen der langfristigen Auffindbarkeit durch dauerhafte Adressen (Persistent Identifiers). Die bevorzugten Identifier sind DOIs. Die DOI-Agentur in Deutschland für wissenschaftliche Rohdaten ist die Technische Informationsbibliothek Hannover (TIB), die weltweit als erste diese Funktion wahrgenommen hat;die DOI-Agentur in der Schweiz ist die ETH-Bibliothek.
  • die Beschreibung (Metadatenerfassung) der Daten bzw. Datensammlungen. Diese ist substantiell für die Veröffentlichung von Daten, die unabhängig von zugehörigen Publikationen z.B. in Datenzentren aufbewahrt werden. Die Beschreibung erfolgt auf der Basis von ISO-Standards und fachspezifischer Beschreibungselemente (z.B. der IUPAC Chemical Identifier in der Chemie). Für die Selbstarchivierung von Daten in der Small Science kommen auch einfachere Schemata wie Dublin Core in Betracht;
  • die Verankerung von Quellenangaben und Lizenzbedingungen in den Datenfiles (z.B. über einheitlich verschlüsselte Identifier).

Die DFG hat auf Initiative der Deutschen Sektion von CODATA im Zeitraum 2003-2005 ein Projekt Publikation und Zitierfähigkeit wissenschaftlicher Primärdaten gefördert, an dem neben der TIB die vier deutschen World Data Centers im Bereich Geowissenschaften beteiligt waren.

Rechtliche Aspekte

Im Bereich des Open Access zu Forschungsdaten gibt es spezifische rechtliche Probleme und Anforderungen. Auch hier wurde (Daten-) Autorinnen und Autoren zur Sicherung ihrer Rechte bislang das Creative-Commons-Lizenzsystem empfohlen, das im Kontext neuerer Initiativen wie Science Commons derzeit weiterentwickelt wird. Das Projekt Science Commons wurde 2005 unter der Federführung von Creative Commons inittiert, um den komplexen Anforderungen des Open Access zu wissenschaftlichen Daten, Werkzeugen und Materialien gerecht zu werden. Science Commons macht es sich zur Aufgabe, Zugänglichkeit, Nutzung und Nachnutzung der genannten Informationen zu erleichtern und unnötige Barrieren des Austauschs von Forschungsdaten zu identifizieren und zu beseitigen.

Ebenfalls 2005 wurde von CODATA, World Data Centers (WDC), OECD, Science Commons und weiteren Organisationen die Initiative Global Information Commons for Science auf den Weg  gebracht, die das Ziel hat, die verschiedenen Initiativen des offenen Zugangs zu Forschungsdaten und Informationsressourcen zu koordinieren und vor allem die Nachnutzung von Ergebnissen aus öffentlich geförderter Forschung zu erleichtern.

Als hinderlich für Open Access zu Daten wirkt sich die EU-Gesetzgebung aus, die für Datenerzeugnisse in EU-Ländern unabhängig vom Vorliegen eines urheberrechtlichen Schutzanspruchs einen Schutzanspruch sui generis formuliert, so dass diese Daten (zumindest in EU-Ländern) nicht ohne Erlaubnis der Rechteinhaber von anderen genutzt werden können. Für die im Zuständigkeitsbereich deutscher Bundesministerien und Behörden produzierten Daten wird deren kooperative Nutzung im Sinne von Open Access dadurch behindert, dass sich die datenproduzierenden Institutionen (Vermessungsämter, Deutsches Fernerkundungsdatenzentrum, Deutscher Wetterdienst) teilweise aus dem Verkauf ihrer Daten finanzieren müssen. Im Bereich Geodaten, die von den Vermessungsämtern nicht der Allgemeinheit zur Verfügung gestellt werden, hat sich daher das freie Software-Projekt OpenStreetMap entwickelt, für das tausende Freiwillige aus aller Welt mit Hilfe von GPS-Technologie Geodaten sammeln und für Kartenmaterial zur Verfügung stellen. Die Daten stehen unter der Creative-Commons-Share-alike-Lizenz 2.0 und können daher für Anwendungen aller Art weitergenutzt werden.

Infrastruktur

Die Unterstützung und Förderung von Open Access zu Daten erfordert gerade mit Blick auf die breite Forschung eine entsprechende Infrastruktur. Verantwortlich bzw. zuständig für den Aufbau entsprechender Datenzentren sind Förderorganisationen, Universitäten und öffentliche Forschungseinrichtungen. In deren Verantwortung fällt auch die Formulierung von Richtlinien (Policies) für Auswahl, Zugriff und Nutzung der in ihren Bereichen anfallenden Daten bzw. Informationen.

Kooperative und fachspezifische Initiativen im Bereich Open Access von Daten

Die derzeit dominierenden Aktivitäten und Organisationsformen im Bereich des Open Access zu Daten sind generell fachspezifisch. Folgende Klassen können unterschieden werden:

  • Offene Datenzentren und Archive (z.B. GenBank, Protein Data Bank, Digital Sky Survey)
  • Virtuelle Observatorien (z.B. International Virtual Observatory for Astronomy, Digital Earth)
  • Verteilte offene Datennetzwerke (z.B. World Data Centres [WDCs], Global Diversity Information Facility, NASA Distributed Active Archive Centers). Von den insgesamt 52 World Data Centers befinden sich vier in Deutschland, die sich zu einem Cluster für Earth System Science zusammengeschlossen haben.

Zukunftsperspektiven und Hinderungsgründe für Open Access zu Daten

Die Hinderungsgründe, Daten öffentlich zugänglich zu machen, sind vielfältig:

  • Während die Einrichtungen und Programme der Großforschung zum größten Teil über geeignete Daten-Repositorien verfügen, fehlt für ein flächendeckendes Data Sharing noch die erforderliche Infrastruktur (z.B. geeignete Datenbanken). Möglicherweise kann hier an Aktivitäten des DFG-Projekts Publikation und Zitierfähigkeit wissenschaftlicher Primärdaten angeknüpft werden.
  • Daten-Autor/innen befürchten, dass ihre Daten ohne Zitierung der Quelle von anderen Wissenschaftlerinnen und Wissenschaftlern benutzt werden können oder dass sie in unangemessener Weise in ihren Verwertungsrechten eingeschränkt werden; siehe hierzu rechtliche Aspekte.
  • Der Einsatz für Aufbereitung und die Verfügbarmachung von Daten bringt im derzeitigen Wissenschaftssystem wenig Anerkennung ein und wirkt sich wegen des Zeitaufwands eher nachteilig für die wissenschaftliche Karriere aus. Entscheidend für die Motivation von Autorinnen und Autoren, ihre Daten frei zugänglich zu machen, ist daher die Anerkennung der Bereitstellung von Daten als eigenständige zitierfähige Veröffentlichung und wissenschaftliche Leistung.

Data Sharing - insbesondere Open Data Sharing - eröffnet der Forschung in allen Bereichen, in denen Daten genutzt oder gewonnen werden, neue synergetische Potenziale und ist infolgedessen ein aktives Feld der Forschung und Wissenschaftsförderung.

 

Unter Mitarbeit des Helmholtz Open Access Koordinationsbüros hat die Arbeitsgruppe Elektronisches Publizieren in der Deutschen Initiative für Netzwerkinformation e. V.(DINI) im Juni 2009 ein Positionspapier zum Thema Forschungsdaten veröffentlicht.

Weitere Informationen über Open Access zu Daten finden Sie auf den Seiten der Helmholtz-Gemeinschaft.

 

Weiterführende Links zum Thema