Datenanalyse – Wegbereiter für den Überwachungsstaat oder Ermächtigung der Gegenöffentlichkeit?

Im Rahmen des Fellow-Programms Freies Wissen fördern wir junge Wissenschaftlerinnen und Wissenschaftler, die Offene Wissenschaft betreiben möchten. In diesem Gastbeitrag berichtet Stipendiatin Eva Seidlmayer über die Risiken und Potentiale bibliometrischer Analysen, also der quantitativen Auswertung von Daten über Wissenschaftlerinnen und Wissenschaftlern anhand ihrer Publikationen.

  • Eva Seidlmayer
  • 9. Januar 2020

Das Projekt: Autorinnen und Autoren hinter der Publikation sichtbar machen

Wissenschaft ist ein soziales Feld. Doch die Wissenschaftlerinnen und Wissenschaftler spielen in bibliometrischen Auswertungen immer noch eine zu geringe Rolle. Was in den Sozial- und Geisteswissenschaften längst Mainstream ist, steht in der Bibliometrie noch aus: der Perspektivwechsel von Publikationen auf die Autorinnen und Autoren. 

In meinem Projekt „Nachnutzung von strukturierten Daten aus Wikidata für bibliometrische Analysen“, unterstützt durch das Fellow-Programm Freies Wissen, beschäftige ich mich daher mit der Anreicherung von bibliographischen Metadaten um Informationen zu den Autorinnen und Autoren der Publikationen (Wikiversity 2019). Auf diesem Weg wird es möglich, in scientometrischen Projekten besser zu verstehen, warum wer mit wem zusammenarbeitet, wer wessen Forschung rezipiert und darauf referiert. Ebenso werden mögliche Zusammenhänge zwischen Metadaten und Forschungsthemen sichtbar.

Daten von Individuen

Doch dieses Vorhaben bedeutet die Auswertung von Daten von Individuen. Und diese ermöglicht gegebenenfalls auch missbräuchliche Fragestellungen, z. B. nach sozialen Zugehörigkeiten. Das Anliegen des Projekts, soziale Mechanismen in der Wissenschaft aufzudecken, auch um Argumente zu liefern, marginalisierten Gruppen mehr Relevanz zu verschaffen, kann somit ungewollt ihrer Kontinuität Vorschub leisten.

Zumindest auf juristischer Ebene ist der Zugriff auf Daten immerhin für dieses Projekt unproblematisch, da keine Daten erhoben oder gespeichert werden, sondern lediglich eigene oder frei verfügbare Datenbestände etwa von Wikidata, der Gemeinsamen Normdatei (GND) der Nationalbibliothek, oder ORCID  nachgenutzt werden. Doch moralisch geht es immerhin um Individuen, die eigentlich nur mit ihrer Forschung in die Öffentlichkeit getreten waren und nun selbst Objekt der Forschung werden. 

Forschungsdesign und Datengrundlage ausschlaggebend. Beispiel Gender

Dabei ist der Erkenntnisgewinn, den quantitative Analysen beanspruchen können, ohnehin extrem abhängig von den eingehenden Daten. Dies wird zum Beispiel relevant beim Thema Gender. In Zeiten, in denen das Dritte Geschlecht gleichberechtigt neben „weiblich“ und „männlich“ steht, greift die heteronormative Matrix auch in der Bibliometrie zu kurz. Analysen, die sich schon in ihrer Datengrundlage auf eine heteronormative Perspektive von Akteurinnen und Akteuren in der Wissenschaft festgelegt haben, können nur schwerlich Ergebnisse produzieren, die über diese Voraussetzung hinausgehen oder quer zu ihr liegen. Wikidata lässt neben “männlich” und “weiblich” auch andere Beschreibungen oder keine zu. Um zusätzlich dem Problem einer Zuschreibung durch Dritte zu entgehen, nutzt das Projekt Datenbanken wie Wikidata und ORCID als zentrale Grundlagen, die von den Betroffenen selbst kuratiert und korrigiert werden können. 

Am Beispiel von Gender zeigt sich, dass Daten und Analysen immer auch durch das Forschungsdesign und damit durch ihre Zwecke geprägt sind. Darüber hinaus wirkt sich  auch die Größe des Datensatzes aus, die einzelne Abweichungen herausstellt oder einhegt. Quantitative Datenanalyse – auch wenn sie auf offenen Ressourcen aufbaut und den Code offenlegt, ist damit immer eine Dual-Use-Technik

Datenanalyse: Dual-Use-Technik

Dass Datenanalysen eingesetzt werden, um personalisierte, nicht gekennzeichnete politische Werbung zu platzieren (Kreysler et al. 2019), dürfte niemanden mehr wundern. Doch dass nicht nur totalitäre Staaten wie China Datenauswertungen nutzen, um ihre Bevölkerung zu lenken, sondern auch Demokratien, die wie die USA anhand solcher Informationen etwa über staatliche Zuwendungen entscheiden (Eubanks 2017), stimmt mindestens nachdenklich. Läuft auch das hier erarbeitete Tool zur Anreicherung bibliometrischer Daten Gefahr, von einem Überwachungsstaat gegen die Interessen der eigenen Bürger genutzt zu werden? 

Wir agieren in dieser „brave new data world“ jedoch nicht nur als Produzierende von Daten, die ihre Datenspur hinterlassen. Wir können uns auch selbst an der Auswertung von Daten beteiligen und in unseren Fragestellungen von den neuen Verfahren profitieren. Und dies ist genau, warum ich die Erstellung eines Tools zur „Nachnutzung von strukturierten Daten aus Wikidata für bibliometrische Analysen“ trotz aller Schwierigkeiten für progressiv halte. Auch wenn Datenschutz und Datengrundlage reflektiert werden müssen und zudem die gleichen Datengrundlage abhängig von ihrem Zweck zu einem konstruktiven oder destruktiven Werkzeug werden kann, ist die Erarbeitung von Tools und das Erlernen von Techniken unterm Strich ein Beitrag zur Ermächtigung der Gegenöffentlichkeit. Diese wird immer notwendig bleiben, um bestehende Strukturen zu überprüfen und zum Korrektiv werden zu können. 

Denn wenn die quantitativen Daten soziale Realitäten statistisch abzubilden versuchen, um politische Entscheidungen zu beeinflussen und zur Stabilisierung sozialer Realitäten beizutragen (Angermuller/van Leeuwen 2019), dann können sie auch mit anderen Fragestellungen quantitative Argumente liefern für die Rechtfertigung einer Entwicklung zu einer gerechteren Gesellschaft. Das Spiel mitzuspielen und zu verstehen, wie quantitative Methoden arbeiten, kann damit einer Selbstermächtigung gleichkommen, weil es ermöglicht, Argumente zu kritisieren und ihnen etwas entgegenzusetzen. 

Einwände und Hinweise zu dieser Position dürfen gerne auch auf dem Blog (Seidlmayer 2019) gepostet werden, zu dem ich in Diskussionen mit Mentorinnen des Fellow-Programms Freies Wissen ermuntert worden bin und auf dem ich solche Fragen zu reflektieren versuche.

Zur Autorin: Eva Seidlmayer hat in der Philosophie promoviert und anschließend Informationswissenschaft studiert. Derzeit arbeitet sie im Projekt Q-Aktiv und beschäftigt sich dabei mit Konvergenzprozessen unterschiedlicher Wissensbereiche innerhalb von Wissenschaftsdynamiken. Gegenstand der Untersuchung sind wissenschaftliche Artikel und Patentschriften aus Publikationsdatenbanken der Lebenswissenschaften und Wirtschaftswissenschaften, die mehr als 50 Mio. Metadaten und 10 Mio. Volltexte umfassen. Grundlegend für das Verstehen wissenschaftlicher Dynamiken ist die Anreicherung der Publikationsdaten um soziale Informationen zu den Autor*innen. Diese kann Eva Seidlmayer in einer Python Library auf Basis von Wikidata nun mit Unterstützung des Fellowship Freies-Wissen über die Anwendung von Q-Aktiv hinaus generisch realisieren.

Bild: Ralf Rebmann, Eva SeidlmayerCC BY-SA 4.0

Bibliografie

Angermuller, Johannes/Thed van Leeuwen. 2019. “On the Social Uses of Scientometrics: The Quantification of Academic Evaluation and the Rise of Numerocracy in Higher Education.” In Quantifying Approaches to Discourse for Social Scientists, ed. Ronny Scholz. Cham: Springer International Publishing, 89–119. http://link.springer.com/10.1007/978-3-319-97370-8_4 (September 27, 2019).

Eubanks, Virginia 2017. Automating inequality: how high-tech tools profile, police, and punish the poor, New York.

Kreysler, Peter, Kapohl, Matthias, and Schiller, Wolfgang. 2019. “Digitale Brandbeschleuniger Der unregulierte Wahlkampf im Netz.” Deutschlandfunk. https://www.deutschlandfunkkultur.de/der-unregulierte-wahlkampf-im-netz-digitale.3720.de.html?dram:article_id=456530.

Seidlmayer, Eva 2019. On the edge of the data knife, https://dualusedata.hypotheses.org/author/dualusedata

Wikiversity. 2019: Fellow-Programm Freies Wissen/Einreichungen/Nachnutzung von strukturierten Daten aus Wikidata für bibliometrische Analysen, https://de.wikiversity.org/wiki/Wikiversity:Fellow-Programm_Freies_Wissen/Fellows2019