zurück

Freies Wissen und Wissenschaft (Teil 04): Über die Notwendigkeit für mehr Offenheit und Transparenz in der Qualitätssicherung und Evaluierung: Open Peer Review und Open Metrics

Lilli Iliev

15. September 2015

Open Access, Citizen Science, Open Research Data – Die Öffnung der Wissenschaft schreitet voran. Immer mehr Wissenschaftlerinnen und Wissenschaftler beschäftigen sich im Rahmen ihrer Arbeit mit freien Lizenzen und kollaborativen Arbeitsweisen. Sie machen ihre Forschungsergebnisse und -daten frei zugänglich, damit sie von möglichst vielen Menschen verwendet und nachgenutzt werden können oder beteiligen Bürgerinnen und Bürger direkt am Forschungsprozess. An dieser Stelle veröffentlichen wir in unregelmäßigen Abständen Beiträge rund um das Thema Freies Wissen und Wissenschaft. Im vierten Teil unserer Reihe schreibt Dr. Peter Kraker, Forscher am Know-Center, über Open Peer Review und Open Metrics.


E-Mails mit der Betreffzeile “Your submission to…” oder “Refereeing decision for…” lassen den Puls von ForscherInnen ansteigen – beinhalten diese doch zumeist das Ergebnis des sogenannten Peer Reviews, welches darüber entscheidet, ob ein wissenschaftlicher Artikel zur Publikation in einer Zeitschrift oder einem Konferenzband angenommen wurde. Wikipedia definiert Peer Review folgendermaßen:

Ein Peer-Review (englisch von Peer, Gleichrangiger und Review, Gutachten), auch Kreuzgutachten, ist im Wissenschaftsbetrieb ein Verfahren zur Qualitätssicherung von wissenschaftlichen Publikationen. Dabei werden unabhängige Gutachter aus dem gleichen Fachgebiet wie die Autoren herangezogen, um die Eignung zur Veröffentlichung zu beurteilen.

In der Praxis wird eine Einreichung zumeist von zwei oder drei GutachterInnen beurteilt. Die HerausgeberInnen entscheiden dann auf Basis dieser Gutachten über Annahme oder Ablehnung des Artikels bzw. darüber, welche Änderungen vor Veröffentlichung noch durchzuführen sind. Von vielen ForscherInnen wird das sogenannte “Double-blind Verfahren” als der höchste Standard angesehen. Dabei wird die Einreichung anonymisiert und auch die GutachterInnen geben ihre Einschätzung ohne Namensnennung ab. So soll ein Höchstmaß an Objektivität gewährleistet werden.

Peer Review in der Kritik

Doch Peer Review im geschlossenen Double-blind Verfahren ist in die Kritik geraten, seitdem die Effizienz des Instruments wissenschaftlich untersucht wird. Richard Smith fasste die Forschung zu Peer Review bereits vor einigen Jahren wie folgt zusammen:

Peer review is slow, expensive, profligate of academic time, highly subjective, prone to bias, easily abused, poor at detecting gross defects, and almost useless for detecting fraud.

Was sind die Gründe für dieses vernichtende Urteil? Nun, zunächst haben viele ForscherInnen bereits die Kehrseite der Reviewer-Anonymität kennengelernt. Ursprünglich zum Schutz der ReviewerInnen eingeführt, damit sie ihre Meinung frei äußern kann, ohne Nachteile fürchten zu müssen, werden unter dem Schutzmantel der Anonymität auch extrem kurze, stark subjektive und in manchen Fällen sogar beleidigende Gutachten abgegeben. Zudem ist das Ideal des Double-blind Verfahrens kaum zu erreichen: in den meisten Gebieten kennen die ExpertInnen einander und sind über die Arbeit des jeweils anderen informiert. Aus diesem Grund können die ReviewerInnen in vielen Fällen zumindest erahnen, wer das Manuskript eingereicht hat. Reviews können somit genutzt werden, um die Publikation eines Konkurrenten, wenn schon nicht verhindern, so zumindest verzögern. Denn Peer Review-Verfahren ziehen sich meist über mehrere Monate hin. Wird eine Publikation von einer Zeitschrift abgelehnt, so wird der Prozess bei einer anderen Zeitschrift von neuem gestartet. Dies betrifft nicht immer nur wissenschaftlich problematische Artikel, sondern auch besonders innovative oder interdisziplinäre Forschung. So kann es im schlimmsten Fall Jahre dauern, bis ein Artikel veröffentlicht wird.

Letztlich sind jene Zeitschriften mit den höchsten Ablehnungsraten – und damit mit dem vermeintlich rigorosesten Peer Review – gleichzeitig jene, bei denen die meisten Artikel im Nachhinein zurückgezogen werden müssen, da Fehler oder gar betrügerisches Verhalten nachgewiesen wurden. Nun könnte man argumentieren, dass diese Artikel bereits von vornherein stärkere Beachtung finden und Fehler so wahrscheinlicher gefunden werden – das Vertrauen in Peer Review als Korrektiv und qualitätssicherndes Instrument wird dadurch aber nicht gestärkt.

Offenes Peer Review, oder: das Verfahren auf den Kopf stellen

Peer Review. [CC BY-SA 2.0]

Aufgrund dieser Defizite wird der Ruf nach einer Reform des Peer Review Prozesses hin zu mehr Offenheit und Transparenz immer lauter. Eine Variante von Open Peer Review kommt bei BiomedCentral seit vielen Jahren zum Einsatz. Dabei werden bei Veröffentlichung eines Artikels auch dessen Reviews mit Namen des Reviewers veröffentlicht. Dadurch sollen kurze und stark von der eigenen Meinung gefärbte Gutachten vermieden werden. Das sogenannte Open Post Publication Peer Review geht sogar noch weiter. Bei diesem Verfahren werden Artikel nach einer kurzen Überprüfung durch den/die Herausgeber/in, ob es sich grundsätzlich um einen wissenschaftlichen Artikel handelt, sofort online gestellt. Das Peer Review wird dann nach der Publikation (“post publication”) durchgeführt. Die Reviews werden auch hier öffentlich gestellt, wobei sowohl die Identität der ReviewerInnen als auch die der AutorInnen bekannt ist. Sowohl Artikel als auch Reviews können zudem von Dritten kommentiert werden.

Dieses Open Post Publication Peer Review, welches etwa von der European Geosciences Union (EGU), dem Semantic Web Journal oder F1000 verwendet wird, hat, neben der oben erwähnten normativen Wirkung, viele weitere Vorteile: zunächst müssen AutorInnen nicht mehr Monate oder Jahre auf Veröffentlichung ihres Artikels warten. Außerdem kann jede/r den Artikel und die Reviews kommentieren und so auf Versäumnisse oder Probleme der AutorInnen, aber auch der ReviewerInnen hinweisen. Das offene und transparente Verfahren ermöglicht es AutorInnen, ReviewerInnen und anderen ExpertInnen in einen Dialog zu treten, der den Artikel verbessert.

Als Wermutstropfen bleibt, dass ReviewerInnen nicht mehr durch Anonymität geschützt werden; dies kann aber in bestimmten Fällen sinnvoll sein. Aus diesem Grund hat es sich bei anderen Open Peer Review Verfahren, wie dem Semantic Web Journal durchgesetzt, das ReviewerInnen auf Wunsch dennoch anonym bleiben. Diese Möglichkeit wird von rund einem Fünftel der ReviewerInnen im SWJ genutzt. Zudem stellt sich die Frage, was mit einmal veröffentlichten Artikeln passiert, so sie nach dem Review trotz aller Änderungen als nicht tauglich eingestuft werden. Bei F1000 verbleiben diese Artikel mit dem Vermerk „Not Approved“ in der Datenbank, während das Semantic Web Journal AutorInnen anbietet, die Artikel in diesem Fall nach einer vierwöchigen Frist wieder von der Website zu entfernen.

Das nachgelagerte Peer Review wird von neugegründeten Publikationsplattformen gerne umgesetzt. Traditionelle Verlage, insbesondere die „Big 5“ (Reed-Elsevier, Springer, Wiley-Blackwell, Taylor & Francis und Sage), aber halten derzeit noch am geschlossenen Peer Review fest. Als Alternative dazu bieten sich Plattformen wie PubPeer an, auf denen wissenschaftliche Artikel im Nachhinein besprochen werden können, zumeist wenn der Verdacht vorliegt, dass Fehler in den Studien passiert sind bzw. in bestimmten Fällen sogar Daten oder Ergebnisse gefälscht wurden.

Wozu Metriken in der Qualitätssicherung und Evaluierung?

Ein grundlegendes Problem von Peer Review kann auch Offenheit nur bedingt lösen: die stark steigende Nachfrage an Reviewern, die immer schwerer gedeckt werden kann. Neben der stetig steigenden Anzahl an eingereichten Publikationen, wird Peer Review mittlerweile auch für die Begutachtung von Forschungsanträgen und in Bewerbungsverfahren eingesetzt. Zudem werden fachkundige ExpertInnen in Evaluierungen von Projekten und von ganzen Institutionen benötigt. Eines der größten Peer Reviews betreibt dabei Großbritannien: im Rahmen des Research Excellence Frameworks wird periodisch der gesamte Forschungsoutput einer Nation von den ExpertInnen in den einzelnen Bereichen bewertet.

Da qualitative Methoden zunehmend an ihre Grenzen stoßen, wird die Nutzung quantitativer Indikatoren immer öfter in Betracht gezogen. Ob klassische Metriken, wie Zitate, oder neue, web-basierte Metriken wie Downloads oder Tweets: Metriken werden in vielen Bereichen angewandt, unter anderem in der Qualitätssicherung, in der Evaluierung und bei der Filterung wissenschaftlichen Outputs. Dementsprechend entstehen neue Services, die die Nachfrage nach metrik-basierten Auswertungen bedienen. In Deutschland hat der Diskurs darum durch den Kerndatensatz Forschung Fahrt aufgenommen. Ein Bericht der britischen HEFCE spricht sogar von einer “Metric Tide”, also einer Metrik-Flut, die derzeit über uns hereinbricht.

Wie die Ergebnisse aus der Forschung zu quantitativen Indikatoren, der Bibliometrie, zeigen, ist bei der Anwendung von Metriken zur Evaluierung allerdings höchste Vorsicht geboten. Metriken können etwas Quantifizierbares über die Welt aussagen, doch für das wie und warum benötigen wir nach wie vor Theorien und Modelle. Besonders schwierig wird es bei Indikatoren, die in sozialen Zusammenhängen generiert werden, wie etwa Zitate oder Tweets. Menschen sind notorisch unzuverlässig und die Motive ihres Handelns sind vielfältig. Wenn ein Artikel in einem anderen zitiert wird, dann kann der/die Autorin das aus der Motivation geschehen, dass er/sie auf dem Artikel aufbaut. Es kann aber genauso gut aus der Motivation entstehen, dass er/sie jemanden einen Gefallen tun möchte – oder weil er/sie ein anderes Ergebnis widerlegen möchte. All dies geht bei einer simplen Zählung und Aggregation verloren. Untersuchungen haben gezeigt, dass Metriken anfällig sind für systematische Verzerrungen. Zudem besteht immer die Gefahr einer bewussten Einflussnahme durch die handelnden Akteure.

Daher erscheint es nur folgerichtig, dass auch im Bereich der Metriken mehr Offenheit und Transparenz gefordert wird. Dies wurde auch im kürzlich erschienen „Leiden Manifesto for research metrics“ noch einmal bekräftigt:

Keep data collection and analytical processes open, transparent and simple. […]  no one should accept a black-box evaluation machine.

Nur wenn die Daten, die den Metriken zugrunde liegen offen zur Verfügung stehen, können systematische Verzerrungen ausfindig gemacht werden. Zudem sind ergänzende Informationen über den jeweiligen Datensatz wichtig, um Metriken in einen entsprechenden Kontext setzen zu können und untereinander vergleichbar zu machen. Letztlich kann auch die bewusste Einflussnahme erst dann überprüft werden, wenn alle Daten frei zugänglich sind.

Ein Blick auf die derzeitige Landschaft zeigt, dass wir davon aber noch weit entfernt sind, wie auch Kollege Ulrich Herb im vorhergehenden Beitrag in diesem Blog aufgezeigt hat. Zwar stellen einige Anbieter ihre Daten bereits unter einer freien Lizenz zur Verfügung – als positive Beispiele seien hier PLoS, Mendeley und figshare genannt – der Journal Impact Factor (JIF) von Thomson Reuters, eine der weitverbreitetsten Metriken ist allerdings nicht nachvollziehbar, da die zugrunde liegende Datenbasis nicht veröffentlicht wird. Bei anderen Metriken, wie dem ResearchGate Score, wird nicht einmal der zugrunde liegende Algorithmus veröffentlicht.

Ausgestaltung eines offenen und transparenten Systems zur Qualitätssicherung und Evaluierung

Derzeit zeichnet sich ein Konsens darüber ab, dass Evaluierungspraktiken und wissenschaftliche Qualitätssicherung verbessert werden müssen. Die San Francisco Declaration on Research Assessment (DORA), die dies fordert, wurde von über 12.500 Menschen und fast 600 Institutionen weltweit unterzeichnet. Andere begrüßenswerte Initiativen wie das Leiden Manifesto oder Responsible Metrics schlagen in die gleiche Kerbe.

Die Ausgestaltung eines solchen Systems im Rahmen von Open Science ist aber noch Gegenstand der Diskussion. Im Rahmen von Horizon 2020 läuft derzeit beispielsweise eine Ausschreibung für Projekte, die innovative Konzepte in den Bereichen Peer Review, Dissemination und Impact-Messung identifizieren und validieren.

Aus meiner Sicht wird es wichtig werden, qualitative und quantitative Systeme sinnvoll zu verknüpfen. Denn wie Alan Dix kürzlich gezeigt hat, treten selbst in einer rigorosen, rein qualitativen Evaluierung wie dem britischen Research Excellence Framework, systematische Verzerrungen auf, die erst durch quantitative Metriken zu Tage gefördert werden können. Aufdecken konnte er dies nur, weil die dazugehörigen Daten offen zur Verfügung gestellt wurden. Dies zeigt einmal mehr, dass Offenheit und Transparenz eine notwendige Voraussetzung für ein verbessertes System zur Qualitätssicherung und Evaluierung sein müssen.


Literatur


Dr. Peter Kraker. Bild: CC BY-SA 4.0

Dr. Peter Kraker ist Postdoc am Grazer Kompetenzzentrum Know-Center und forscht dort zu wissenschaftlicher Kommunikation im Web, alternativen Metriken und der Visualisierung von Wissensdomänen. Zudem engagiert er sich für mehr Offenheit in der Wissenschaft im Rahmen des Open Access Network Austria und der Open Knowledge Foundation. Für seine Arbeit erhielt er zahlreiche Preise und Förderungen, unter anderem das Panton Fellowship und das Marshallplan Scholarship.

 

 

 

 


Mehr aus der Reihe „Freies Wissen und Wissenschaft“

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert