235 Millionen Datensätze im Index der Bielefeld Academic Search Engine (BASE)

Neuer Workflow zur Indexierung von Publikationen aus Crossref vergrößert den Index einer der größten Suchmaschinen für wissenschaftliche Web-Dokumente.

Die laufende Open-Access-Transformation ist unter anderem mit der Erwartung verbunden, dass der Open-Access-Anteil von Publikationen auch in Hybrid-Zeitschriften traditioneller Wissenschaftsverlage über die Zeit deutlich steigt. Dazu schließen Forschungsförderer, größere Bibliothekskonsortien und wissenschaftliche Einrichtungen Open-Access-Transformationsverträge mit Verlagen ab. Die ESAC-Registry verzeichnet für das Jahr 2020 weltweit 106 laufende Verträge mit 32 Verlagen (Stand: 13.08.2020).

Metadaten aus Repositorien, Digitalen Sammlungen oder Open-Access-Zeitschriftenplattformen bilden nach wie vor das Rückgrat der Bielefeld Academic Search Engine (BASE). Crossref als weitere Datenquelle für Open-Access-Publikationen spielt jedoch schon seit einigen Jahren eine zunehmend wichtigere Rolle. Reine Open-Access-Verlage, aber auch internationale Universitätsverlage, disseminieren ihre Metadaten schon länger vollständiger und aktueller über Crossref als z.B. über das DOAJ.

Aufgrund der zu erwartenden Zunahme von Open-Access-Verlagspublikationen hat BASE seine Crossref-Strategie ausgeweitet. Folgende Abbildung zeigt einen Ausschnitt (Stand 17.08.2020) der, gemessen an der Anzahl der von den Verlagen an Crossref gemeldeten Metadaten, größten Verlage im BASE-Index:

Der Open-Access-Anteil an den jeweiligen Verlagspublikationen wird über die Nutzung der Unpaywall-API ermittelt. Da die Verlagspublikationen auch Dokumentarten wie z.B. Bücher, Buchkapitel oder Forschungsdaten umfassen, empfehlen wir für eine genauere Betrachtung die Anzeige der jeweiligen Verlagspublikationen durch Klick auf die jeweiligen Dokumente. Am Beispiel Springer Nature erhält man damit folgende Ergebnisse:

Über die Facette „Dokumentart“ ist es möglich, die Suchergebnisse auf Zeitschriftenartikel einzugrenzen und dann über die Facette „Zugang“ die Open-Access- und Nicht-Open-Access-Anteile zu betrachten. Dies kann natürlich mit Erscheinungsjahren kombiniert werden.

Dabei ist zu beachten, dass Crossref-Metadaten und die Unpaywall-API Grundlage für diese Ergebnisanzeigen sind. Bei diesen Ergebnismengen müssen daher Unschärfen, z.B. bei den Dokumentarten, in Kauf genommen werden, gleichwohl können sie einen ersten Einblick in die Entwicklung von Open-Access-Anteilen bei Verlagspublikationen geben. Eine Selektion der über DEAL finanzierten Artikel bei den Verlagen Wiley und Springer Nature ist derzeit nicht möglich, da wir das DEAL-Funding-Acknowledgement in den Crossref-Metadaten bislang nicht entdecken konnten.

Zur BASE-Quellenliste hier klicken.