Wissenschaftliche Erkenntnisse werden zwar in Textform präsentiert, sie basieren jedoch in aller Regel auf der Auswertung von Forschungsdaten. Open Access zu Daten bedeutet, diese Daten so umstandslos wie möglich für Leser/innen und andere Forscher/innen nutzbar zu machen. Der offene Zugang zu Forschungsdaten wird oft damit begründet, dass er die Überprüfbarkeit und Reproduzierbarkeit der in Texten ausformulierten wissenschaftlichen Ergebnisse erlaube. Auch die Berliner Erklärung nannte unter den Objekten, für die sie offene Verfügbarkeit anstrebt, nicht nur wissenschaftliche Dokumente, sondern auch Forschungsdaten. Für einen offenen Zugang zu Forschungsdaten sprechen für die Allianz der Deutschen Wissenschaftsorganisationen neben der damit herstellbaren Transparenz und Qualitätssicherung durch prinzipiell mögliche Reproduzierbarkeit der Forschung auch die Effizienzsteigerung und die Kostenersparnis durch die Möglichkeit, Sekundäranalysen durchzuführen.

Die Argumente, die für den Open Access zu wissenschaftlichen Texten und Daten vorgetragen werden, ähneln sich teils: In beiden Fällen verspricht man sich von offenem Zugang eine Beschleunigung und Effizienzsteigerung der Forschung durch möglichst ungehinderten Zugang zu wissenschaftlichen Informationen. Weiterhin spricht für den offenen Zugang zu wissenschaftlichen Texten und Daten auch in gleichem Maße, dass ihre Herstellung mit öffentlichen Mitteln gefördert wurde. Die Forderung nach offener Verfügbarmachung von Forschungsdaten ist übrigens nicht immer an Open Access zu Textpublikationen gebunden, teils machen auch Journale, die nicht im Open Access erscheinen, ihren Autorinnen und Autoren die Vorgabe, Daten zu ihren Artikeln im Open Access bereitzustellen.

Positionen von Wissenschaft und Forschungsförderern

Ausformuliert werden Ansprüche an offenen Zugang zu Forschungsdaten in den Panton Principles. Diese, aus der Wissenschaft heraus formulierten Forderungen, verlangen offenen Online-Zugang zu Forschungsdaten, der es allen erlaubt, diese Daten herunterzuladen, zu kopieren, zu verbreiten, zu (re-)analysieren, maschinell zu verarbeiten und sie generell ohne finanzielle, technische oder rechtliche Einschränkungen nutzen zu können.

Auch Forschungsförderer betrachten nicht mehr nur Text als bedeutsamen wissenschaftlichen Output. Die National Science Foundation (NSF) hält in ihren 2013  veröffentlichten Grant Proposal Guides Antragsteller nicht mehr dazu an, relevante Publikationen als Nachweis ihrer Expertise zu nennen, sondern vielmehr Produkte – worunter sie auch Daten und Software subsummiert.  Auch das EU-Forschungsrahmenprogramm Horizon 2020 enthält einen Research Data Pilot, in dem in ausgewählten Disziplinen und Förderbereichen die Open-Access-Publikation von Forschungsdaten zum frühestmöglichen Zeitpunkt verpflichtend gemacht wird.

Die Strategie und das Arbeitsprogramm der Helmholtz-Gemeinschaft beinhalten die Speicherung wissenschaftlicher Primärdaten in den Datenzentren der Gemeinschaft. Die Deutsche Forschungsgemeinschaft (DFG) verpflichtet Projektnehmer (nur) zur Archivierung der Daten für einen Zeitraum von mindestens zehn Jahren.

Die NSF verlangt von Förderempfängern seit 2011 schon bei Antragstellung das Ausweisen eines Data Managements Plan, der beschreiben muss, wie Förderempfänger den Vorgaben hinsichtlich des Teilens von Daten (Data Sharing) nachkommen wollen. Weitergehend sind die Forderungen des Wellcome Trust, der seit 2007 in seiner Policy on Data Management and Sharing das Teilen von Daten, die aus von ihm geförderter Forschung hervorgehen, und ihre verpflichtende Open-Access-Stellung unmittelbar nach Publikation der Forschungsergebnisse verlangt. Die National Institutes of Health (NIH) binden Förderbewilligungen ab 500.000 US-Dollar bereits seit 2003 an die Verpflichtung zu Open Access Data Sharing. Die Open-Access-Stellung der Daten muss nach Publikation der wesentlichen wissenschaftlichen Projektergebnisse erfolgen. CODATA (Committee on Data for Science), eine Unterorganisation des International Council for Science (ICSU) und die internationale Organisation im Bereich des Qualitätsmanagements und Austauschs wissenschaftlicher Daten, befürwortet den offenen Zugang zu Daten in ihren 2000 publizierten Principles for Dissemination of Scientific Data.  
Auch im Rahmen von Projekten des österreichischen Wissenschaftsfonds FWF sollen Forschungsdaten Open Access zur Verfügung gestellt werden, sofern dies rechtlich und ethisch möglich ist. Dabei müssen folgende Bedingungen erfüllt sein: Ein geeignetes Repositorium muss gewählt werden, die Forschungsdaten müssen in einem zitierbaren Format vorliegen und zudem muss eine uneingeschränkte Wiederverwendung gewährleistet sein.
Die mit Beiträgen des Schweizerischen Nationalfonds erhobenen Daten sind auch anderen Forschenden für die Sekundärforschung zur Verfügung zu stellen und gemäß den Vorschriften des SNF in anerkannte wissenschaftliche Datensammlungen einzubringen.   

Auch ein Projekt der Schweizerischen Universitätskonferenz (SUK-Programm 2013-2016 P-2 "Wissenschaftliche Information: Zugang, Verarbeitung und Speicherung") fördert unter anderem Forschungsdaten-Management und Veröffentlichung von Forschungsdaten, beispielsweise im Projekt Pilot-ORD@CH. Zudem hat das Schweizer Kompetenzzentrum Sozialwissenschaften (FORS) eine befürwortende Grundsatzerklärung zu Open Data herausgegeben und zusammen mit der Schweizerischen Akademie der Geistes- und Sozialwissenschaften ein Manifest zu Data Access and Research Transparency erarbeitet (DART).
Die Bedeutungszunahme des Open Access zu Textdokumenten und wissenschaftlichen Daten (sowie auch wissenschaftlicher Software) spiegelt zugleich auch das Aufkommen der transparenten und offenen Wissenschaft (Open Science) wider.
Die gestiegene Relevanz des Open Access zu Forschungsdaten lässt sich aber nicht nur an den Positionierungen der Forschungsförderer und Wissenschaftsorganisationen ablesen. Vielmehr werden Forschungsdaten zu eigenständigen wissenschaftlichen Objekten, die wie Texte behandelt und zitiert werden. Folglich bilden sich auch neue, eigenständige Veröffentlichungsmöglichkeiten für Forschungsdaten aus, dazu zählen (Dallmeier-Tiessen, 2011):

  • die Veröffentlichung von Forschungsdaten als eigenständige Objekten auf einem Forschungsdaten-Server bzw. -Repositorium. Diese Server, z.B. DRYAD in der Biowissenschaft, dienen alleine der Publikation von Forschungsdaten.
  • die Veröffentlichung von Forschungsdaten mit einer textuellen Dokumentation in einem Datenjournal. Diese Datenjournale, z.B.  Earth System Science Data (ESSD) aus den Geo-Wissenschaften, kennen sogar eine Art Qualitätsprüfung, sie beschränkt sich jedoch meist auf die  Beschreibung der Daten.
  • die Veröffentlichung von Forschungsdaten als Anreicherung einer interpretativen Text-Publikation (in aller Regel eines Zeitschriftenartikels). In diesem dritten Szenario können Daten als Supplement auf der Website des Journals abgelegt werden oder, wie oben erwähnt, in einem Forschungsdaten-Server veröffentlicht und aus der Zeitschrift verlinkt werden.

Big Science und Data Driven Science

Daten werden zum größten Teil in der herkömmlichen akademischen bzw. universitären Forschung (Small Science) gewonnen. Wegen der Breite und Vielfalt der Forschung liegt in diesem Bereich das größte Potenzial von Open Access für die (Nach-) Nutzung von Daten. In ganz anderer Weise unterstreichen Fälle der Datenmanipulation oder -fälschung die Notwendigkeit von Open Access für die Verifizierung bzw. Reproduzierbarkeit von Forschungsergebnissen. Da Forschungsdaten zunehmend umfangreicher und komplexer werden, werden sie nur noch selten - beispielsweise in Tabellenform - in den Arbeiten selbst präsentiert. Dieses Verfügbarkeitsproblem kann durch spezielle Forschungsdaten-Repositorien, auf denen wissenschaftliche Daten publiziert werden können, behoben werden.

Besonders datenintensiv ist die Großforschung (Big Science): Fächer wie Bioinformatik und die (beobachtenden) Geo-/Umweltwissenschaften basieren primär auf Daten, deren Gewinnung, Analyse und Interpretation oft über verschiedene arbeitsteilige Instanzen erfolgt. Großforschung ist überwiegend kooperativ organisiert; Muster für den derzeit stattfindenden Strukturwandel in Richtung e-Science sind hier anzutreffen. Die Kooperationspartner sind hier als Nutzende und Zulieferer über ein Data Sharing verbunden, wobei die Daten in - oft vernetzten oder zu Clustern zusammengefassten - Datenzentren oder Datenbanken gespeichert sind.

Erfolgsbeispiele sind GenBank und Protein Structure Database: "The success of the genome project is in no small part due to the fact that the world's entire library of published DNA sequences has been an open access public source for the past 20 years. If sequences could be obtained only in the way that traditionally published work can be obtained - there would be no genome project", so  Patrick Brown, Professor of Biochemistry at Stanford University (2004). Unter Heranziehung historischer DNA-, Umwelt- und anderer Daten konnten, um ein anderes Anwendungsbeispiel zu nennen, Verbreitungsmuster der Cholera gefunden werden, die auf andere Weise nicht sichtbar geworden wären.

Die offene Verfügbarkeit von Forschungsdaten ist Grundlage der Data Driven Science oder datengetriebenen Wissenschaft, die (Grey, 2007; Hey, Tansley & Tolle,  2009) ein völlig neues, viertes Forschungsparadigma darstelle, das auf die Paradigmen der

  1. rein empirisch ausgerichteten und beobachtenden Wissenschaft;
  2. auf Theorie und Modellentwicklung basierenden Wissenschaft;
  3. mittels Informationstechnologie komplexe Phänomene in Simulationsstudien erforschenden Wissenschaft

folge und wissenschaftliche Erkenntnis durch Exploration der in großem Stil verfügbaren Daten produziere (Büttner, 2011).  Die datengetriebene Wissenschaft wird dabei umso erfolgreicher sein, je mehr Daten offen, also ohne nennenswerte Nutzungsrestriktionen, verfügbar sind.

Vorteile des Open Access zu Daten

Zusammengefasst gehören zu den wesentlichen Vorteilen des Open Access zu Daten:

  • Verifizierbarkeit und kritische Überprüfbarkeit datenbasierter Forschungsergebnisse
  • Vermeidung unnötiger Duplizierung von Forschungsarbeit durch die Möglichkeit, Sekundäranalysen durchführen zu können
  • Umfassende wissenschaftliche Auswertung der Daten und Verwertung (z.B. in Folgeprojekten)
  • Beschleunigung des Forschungsprozesses durch Data Sharing
  • Erzielung neuer Erkenntnisse durch Zusammenführung von Daten aus verschiedenen Quellen
  • Informationeller Mehrwert und Erstellung höherwertiger Datenprodukte (z.B. Indizes, Datenbanken) durch Zusammenführung von Daten
  • Bessere Kosteneffizienz gemeinsam aufgebauter und genutzter Datensammlungen
  • Förderung der öffentlichen und wirtschaftlichen Nachnutzung von Daten
  • Erhöhte Zitationszahlen für Text-Publikationen, zu denen Daten verfügbar gemacht werden
  • Erhalt einer wissenschaftlichen Belohnung für das Bereitstellen der Daten durch Zitation der Daten selbst

Anforderungen an die Veröffentlichung von Daten

Eine Reihe von Anforderungen wie Datenintegrität oder Langzeitverfügbarkeit decken sich mit denen für wissenschaftliche Publikationen. Wichtig sind

  • die Beschreibung (Metadatenerfassung) der Daten bzw. Datensammlungen. Diese ist substantiell für die Veröffentlichung von Daten, die unabhängig von zugehörigen Publikationen z.B. in Datenzentren aufbewahrt werden. Die Beschreibung erfolgt auf der Basis von ISO-Standards und fachspezifischer Beschreibungselemente (z.B. der IUPAC Chemical Identifier in der Chemie). Für die Selbstarchivierung von Daten in der Small Science kommen auch einfachere Schemata wie Dublin Core in Betracht;
  • die Verankerung von Quellenangaben und Lizenzbedingungen in den Datenfiles (z.B. über einheitlich verschlüsselte Identifier).

Besonders die Vergabe der DOI (oder anderer Persistent Identifier, die die Zitierfähigkeit der Daten garantieren) sind von großer Bedeutung, da durch diese Daten zitierfähig werden und durch Zitate eine Art Belohnung für die Verfügbarmachung entsteht.

Rechtliche Aspekte

Im Bereich des Open Access zu Forschungsdaten gibt es spezifische rechtliche Probleme und Anforderungen. Stichworte hierzu sind Datenschutz[interner Link auf Rechtsseiten] bzw. personenbezogene Daten, Fragen der Schöpfungshöhe (sind die Daten überhaupt geschützt) und der Datenbankrechte. Auch die technischen Anforderungen an die mitunter sehr großen Datenmengen in teilweise speziellen Formaten unterscheiden sich von den gängigen (niedrigen) Anforderungen an Textrepositorien.

Infrastruktur

Die Unterstützung und Förderung von Open Access zu Daten erfordert gerade mit Blick auf die datenintensive Forschung eine entsprechende Infrastruktur. Verantwortlich bzw. zuständig für den Aufbau entsprechender Datenzentren sind Förderorganisationen, Universitäten und öffentliche Forschungseinrichtungen. In deren Verantwortung fällt auch die Formulierung von Richtlinien (Policies) für Auswahl, Zugriff und Nutzung der in ihren Bereichen anfallenden Daten bzw. Informationen.

Kooperative und fachspezifische Initiativen

Die derzeit dominierenden Aktivitäten und Organisationsformen im Bereich des Open Access zu Daten sind tendenziell eher fachspezifisch. Folgende Klassen können unterschieden werden:

  • In der Regel multidisziplinäre Forschungsdaten-Repositorien einzelner Einrichtungen, wie Universitäten, z.B. Open Data LMU der Ludwig-Maximilians-Universität München
  • Verteilte offene Datennetzwerke, wie sie sich im World Data System (WCS) des International Council for Science finden.
  • Fachspezifische Initiativen wie die des Rat für Sozial- und Wirtschaftsdaten (RatSWD), der es sich zur Aufgabe macht, in den namensgebenden Disziplinen eine Bündelung infrastruktureller Kompetenz zur Sicherung des Zugangs zu dezentralen Datenbeständen für die quantitativen Sozial- und Wirtschaftswissenschaften zu schaffen.

Übersichten über Forschungsdaten-Repositorien finden sich auf den Seiten des Open Access Directory zu Forschungsdaten, in der Repositorienliste von DataCite und vor allem im Registry of Research Data Repositories re3data. Der Dienst re3data bietet verglichen mit den erwähnten Listen eine datenbankbasierte Suche, die auch detailliertere Informationen zu Datenbeständen, Dateiformaten und Lizenzbedingungen ausgibt.

Zukunftsperspektiven und Hinderungsgründe

Die Hinderungsgründe, Daten öffentlich zugänglich zu machen, werden mitunter z.B. folgende Aspekte genannt:

  • Während die Einrichtungen und Programme der Großforschung zum größten Teil über geeignete Daten-Repositorien verfügen, fehlt für ein flächendeckendes Data Sharing noch die erforderliche Infrastruktur, dies trifft vor allem bei kleineren Einrichtungen zu. Diese Problematik greift unter anderem das Projekt Research Data Repositorium (RADAR) auf, das eine Forschungsdateninfrastruktur schaffen will, mittels derer  das  Forschungsdatenmanagement gefördert werden soll.
  • Der Einsatz für Aufbereitung und die Verfügbarmachung von Daten bringt im derzeitigen Wissenschaftssystem wenig Anerkennung ein und wirkt sich wegen des Zeitaufwands noch nicht sehr positiv für die wissenschaftliche Karriere aus. Entscheidend für die Motivation von Autorinnen und Autoren, ihre Daten frei zugänglich zu machen, ist daher die Anerkennung der Bereitstellung von Daten als eigenständige zitierfähige Veröffentlichung und wissenschaftliche Leistung.

Data Sharing - insbesondere der Open Access zu Forschungsdaten - eröffnet der Forschung in allen Bereichen, in denen Daten genutzt oder gewonnen werden, neue Potenziale, ermöglicht Transparenz und Reproduzierbarkeit, Kosteneffizienz durch Nachnutzung und Sekundäranalysen sowie neue Forschungsansätze der datengetriebenen Wissenschaft.

Literatur

Büttner, S., Hobohm, H.-C. & Müller, L. (2011). Research Data Management. In S. Büttner, H.-C. Hobohm & L. Müller (Hrsg.), Handbuch Forschungsdatenmanagement (S. 13–24). Bad Honnef: Bock + Herchen. Verfügbar unter: http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:525-opus-2412.

Dallmeier-Tiessen, S. (2011). Strategien bei der Veröffentlichung von Forschungsdaten. In S. Büttner, H.-C. Hobohm & L. Müller (Hrsg.), Handbuch Forschungsdatenmanagement (S. 157–168). Bad Honnef: Bock + Herchen. Verfügbar unter: http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:525-opus-2412.

Gray, J. (2007). eScience -- A Transformed Scientific Method. Mountain View, Kanada: Präsentation anlässlich einer Konferenz von National Research Council und Computer Science and Telecommunications Board am 11. Januar 2007. Verfügbar unter: http://research.microsoft.com/en-us/um/people/gray/talks/NRC-CSTB_eScience.ppt.

Hey, T., Tansley, S. & Toll, K. (2009). Jim Gray on eScience: A Transformed Scientific Method. In Microsoft (Hrsg.), The Fourth Paradigm: Data-Intensive Scientific Discovery (Volume xvii–xxxi). Redmond, Washington. Verfügbar unter: http://research.microsoft.com/en-us/collaboration/fourthparadigm/.