Freies Wissen in Gefahr

Im Einsatz für die Datenrettung

Portraitfotos von Sebastian Majstorovic und Henrik Schönemann auf rotem Hintergrund

Wenn offene Daten bedroht sind, ist auch Freies Wissen in Gefahr. Gerade Forschungsdaten aus Bereichen wie Umwelt oder Gesundheit werden aktuell Ziel von Attacken. Umso wichtiger, dass Freiwillige sich dafür engagieren, sie für alle zugänglich zu halten. Wir haben mit den beiden deutschen Daten-Spezialisten Sebastian Majstorovic und Henrik Schönemann gesprochen, die ehrenamtlich als Datenretter im Einsatz sind.

Patrick Wildermann

11. Juni 2025

Sebastian Majstorovic aus Köln arbeitet als digitaler Historiker und Open Data Specialist und betreibt mit einem Netz aus Freiwilligen das Data Rescue Project. Zuvor hat er sich bereits bei dem Projekt „Saving Ukrainian Cultural Heritage Online“ (kurz SUCHO) engagiert, das ukrainische Kulturdaten vor russischen Attacken bewahrte. Henrik Schönemann – digitaler Historiker und Mitarbeiter am Interdisziplinären Zentrum Digitalität und Digitale Methoden der Humboldt-Universität zu Berlin – hat das Projekt Safeguarding Research & Culture initiiert. Beide verfolgen das gleiche Ziel: Daten zu retten, die von der Löschung bedroht sind. Gegenwärtig liegt ihr Fokus auf Daten, die in den USA bedroht sind.

Henrik, Sebastian, gab es einen konkreten Impuls für den Start eures jeweiligen Projekts?

Sebastian Majstorovic: Ich habe schon nach der Wahl von Donald Trump befürchtet, dass so eine Datenrettungsaktion nötig sein könnte. Anfang Februar erreichte mich dann eine Nachricht von einem Insider aus dem Weißen Haus, in der es hieß: heute um 5 Uhr nachmittags sollen die Websites aller Bundesbehörden offline gehen. Tatsächlich waren dann später zum Beispiel das Census Bureau, das Statistikamt oder die nationale Gesundheitsbehörde CDC vorübergehend nicht erreichbar. Es hieß: „Wartungsarbeiten werden durchgeführt“. Weil Behördendaten in den USA grundsätzlich offen sind – und weil ich Zugang zu einem großen Server habe – begann ich gleich nach dieser Nachricht, 150 Terabyte an Daten herunterzuladen – erst einmal unstrukturiert, nur um sie zu sichern.

Henrik Schönemann: Für mich war ein Tag im Januar dieses Jahres ausschlaggebend. Am Lehrstuhl für Digital History der Humboldt-Universität hat sich ein Forschungsprojekt aus den USA vorgestellt: „Mapping the Gay Guides. Visualizing Queer Space and American Life“. Da geht es darum, Handbücher und Booklets aus den 1960er und 70er Jahren als Quellen aufzubereiten, in denen festgehalten ist, welche Orte damals für die Gay Community als sicher eingestuft wurden. Die Mitarbeitenden dieses Projekts legen Wert darauf, dass all ihre Daten und ihr Code Open Access sind. Ich fragte sie: Wo liegen denn eure Daten? Die Antwort: Bei GitHub, also bei Microsoft. Und nirgendwo sonst. Angesichts des zunehmend queerfeindlichen Klimas, das sich in den USA schon abzeichnete, habe ich angeregt, die Daten noch an einem anderen Ort zu speichern und deren vier Repositorien zur freien Plattform Codeberg migriert. Das war eine Art Startschuss.

Welche Daten sind aktuell besonders bedroht, worauf fokussiert ihr euch?

Sebastian Majstorovic: Tatsächlich gibt es praktisch keine Daten, die nicht bedroht wären. Nehmen wir das föderale Bildungsministerium in den USA, das jetzt entkernt wurde und nur noch dazu da sein soll, Studiengebühren einzutreiben. Das hat ein Forschungs Repositorium (ERIC) betrieben, in dem über 2 Millionen pädagogisch-wissenschaftliche Publikationen katalogisiert sind. 500.000 PDFs davon sind Open Access, jeder kann sie herunterladen. Sie liegen aber nur auf den Servern dieses Repositoriums. Ein Freiwilliger hat sich daran gemacht, alle 500.000 Links herunterzuladen und an die Wayback Machine des Internet Archives zu schicken. Zusammen haben wir ein neues Interface entwickelt, damit man sie beim Data Rescue Project wieder abrufen kann. Genauso sind in den USA die Bundesmuseen betroffen, die Smithsonian Institutions – überhaupt jede Einrichtung, die auf irgendeinem Weg Bundesmittel bekommt.

Henrik Schönemann: Wir haben ein Mission-Statement auf unserer Homepage dazu formuliert, was wir retten. Die Spanne ist weit gefasst, es geht um große Datensets zu Themen wie Umwelt und Gesundheit bis zu individuellen Websites und Podcasts. Wenn uns jemand auf Public Data hinweist, an denen mindestens eine Person Interesse hat und die in irgendeiner Form gefährdet sind, nehmen wir sie auf. Der Fokus liegt auch bei uns aktuell auf den USA, weil dort so viel Forschungs-Infrastruktur existiert und die Bedrohungslage sich zuspitzt. Sebastian hat das Repositorium ERIC erwähnt. Damit die öffentlichen Daten auch außerhalb des Internet Archives verfügbar sind, haben wir sie unserem Speichernetzwerk hinzugefügt. Aber wir verfügen auch schon über einen deutschen Datensatz, das Regenbogen-Portal der Bundesregierung zu sexueller und geschlechtlicher Vielfalt, das im November 2024 sang- und klanglos abgeschaltet wurde – mit der Begründung, die Aufrechterhaltung werde zu teuer. Zum Glück hat jemand einen Tag vorher ein sauberes Web-Archiv erstellt.

Wer sind eure Mitstreiter*innen?

Sebastian Majstorovic: In unserem Netzwerk sind Hunderte Freiwillige organisiert, die bereits über 1000 Datensätze in unserem Data Rescue Tracker katalogisiert haben. Nicht um alles kümmern wir uns selbst, es gibt verschiedene Initiativen, die sich beispielsweise schon seit 2016 auf Klimadaten fokussieren, andere auf Gesundheitsdaten. Wir versuchen zu koordinieren: Wo liegen welche Daten, wer kümmert sich bereits um was? Und wir laden eben auch selbst Daten herunter. Beim Data Rescue Project engagieren sich viele Datenprofis, manchen wurde allerdings von ihren Institutionen explizit verboten, offiziell in Erscheinung zu treten…

Wen meinst du damit?

Sebastian Majstorovic: Da spreche ich von amerikanischen Freiwilligen, die an Universitäten oder Bibliotheken beschäftigt sind, die ihre Fördergelder nicht riskieren wollen. Anders als beim Ukraine-Projekt, wo wir alle mit Klarnamen gearbeitet haben – obwohl es auch nicht ungefährlich ist, Russland zu verärgern – setzen wir deswegen auf Usernamen. Ausgenommen sind Menschen wie ich, die sich dazu bereit erklären, öffentlich das Gesicht der Initiative zu sein.

Henrik Schönemann: Bei Safeguarding Research and Culture sind wir ein Kernteam aus 10 Leuten, eine weitere Handvoll ist in einem engeren Zirkel drumherum. Und es gibt das Forum mit 250 angemeldeten Accounts, in dem wir sehr viel organisieren. 50 bis 60 davon sind stärker aktiv. Im Kernteam sind Leute sowohl aus der Wissenschaft, als auch nicht-wissenschaftliche Kräfte. Ich bin der einzige Historiker und der einzige aus dem Bereich Digital Humanities. Es ist ein breit gefächertes Netzwerk, in dem ebenfalls weitgehend Pseudonymität besteht. Aber man kann bei uns leicht mitmachen und sofort etwas tun.

Podcast: Zersplittert der geopolitische Wettkampf den globalen Zugang zu Wissen?

Sebastian Majstorovic ist auch Gast in unserem Podcast Wissen. Macht. Gerechtigkeit. Gemeinsam sprachen wir darüber, wie digitale Mauern, Zensur und Plattformregulierungen den den internationalen Wissensaustausch beeinflussen. Welche Auswirkungen hat der globale Wettstreit um technologische Vorherrschaft auf Forschung, Wissenschaft und offene Bildung – und was bedeutet das für den Zugang zu verlässlichem Wissen weltweit?

Wo sichert ihr die Daten, welche Ressourcen benötigt ihr am dringendsten?

Sebastian Majstorovic: Speicherplatz. Ich glaube, vielen ist nicht bewusst, wie teuer Cloud-Speicherplatz ist. Bei einem internationalen Projekt wie unserem reicht es eben nicht, sich eine große externe Festplatte zuzulegen. Ein Beispiel: Mehrere Freiwillige haben ein Backup der Daten des Census Bureau erstellt, ich habe vielleicht 200 GB gesichert, ein Mitstreiter von Stanford hat es geschafft, 3 Terabyte herunterzuladen, ein Freiwilliger auf Reddit konnte 6 Terabyte herunterladen. Diese Duplikate müssen wir vergleichbar machen, verpacken – also zippen – und dann der gesamten Öffentlichkeit wieder zum Download anbieten.

Über welche Kosten sprechen wir da?

Sebastian Majstorovic: Bei den großen Cloud-Anbietern kostet 1 Terabyte Speicherplatz ca 25 Euro pro Monat. Was die meisten nicht wissen: Wenn man das wieder zur Verfügung stellen will, kostet es 100 Euro, um 1 Terabyte downloaden zu lassen. Wir haben einen Anbieter gefunden, der diese Downloadgebühren nicht berechnet, damit wir überhaupt die Möglichkeit haben, dass andere die Daten spiegeln können. Wir wollen ja, dass die Daten eine langfristigere Heimat finden bei verlässlichen Institutionen, Archiven. Nur um das zu schaffen, brauchen wir schätzungsweise 3 Petabyte, also 3000 Terabyte, nur um mit den Daten zu arbeiten. Wenn man das auf drei Jahre budgetiert, landet man bei 1,8 Millionen Dollar.

Henrik Schönemann: Wir verfolgen einen komplett dezentralen, verteilten Ansatz. Wir kaufen nicht Speicherplatz in einem Rechenzentrum, unsere Lösung beruht auf Torrenting/Seeding, die Technologie dahinter ist fast 25 Jahre alt und hat ihre Verlässlichkeit oft unter Beweis gestellt.Das ist dasselbe Verfahren, mit dem man z.B. früher Filme illegal heruntergeladen hat. Die Technik selbst ist nicht illegal, nur der Content, der darüber bereitgestellt wurde, war eben urheberrechtlich geschützt. Torrenting funktioniert peer-to-peer. Es gibt keinen zentralen Server, über den etwas läuft, sondern Datensets oder Teile davon liegen auf einzelnen Rechnern, die sie jeweils zur Verfügung stellen. In unserem öffentlichen Katalog SciOp sind die 200 Datensets verzeichnet, über die wir aktuell verfügen. Und weil ein Datenset mehrere Uploads haben kann, sind es insgesamt über 370 Uploads, fast 113 Terabyte. Am redundanten Speichern und Bereitstellen beteiligen sich 5.500 Geräte, sodass unser gesamtes Speichnetzwerk momentan über 650 Terabytes ausmacht.

Wäre in euren Projekten auch Platz für die Wikipedia?

Sebastian Majstorovic: Wikipedia ist unglaublich kompakt, das ist der Vorteil. Es kümmern sich bereits sehr viele Menschen darum, dass es Offline-Kopien gibt – da mache ich mir wenig Sorgen. Das heißt natürlich nicht, dass die Wikipedia auch live erreichbar wäre, das ist etwas anderes. Aber die Rohdaten sind als Datensatz sehr gut verteilt und geschützt.

Henrik Schönemann: Zum Beispiel legt kiwix alle sechs Monate eine lokale Offline-Kopie der Wikipedia-Inhalte an, die Wikimedia Foundation ist auch Partner in dem Projekt. Allerdings betrifft das nur die englischsprachige Ausgabe. Und nicht das ganze Drumherum: die Versionsgeschichten der Artikel, die Diskussionen, die Infrastruktur, die Daten, die bei Wikimedia Commons oder Wikidata liegen. Wenn es da einen sauberen Datendump gibt, könnten wir den bei uns hinzufügen. Wichtig wäre, dass das abgesprochen geschieht, koordiniert. Am besten mit Leuten aus den Projekten selbst, die sich um Infrastruktur dort kümmern. Momentan mache ich mir über die Daten weniger Sorgen, die Infrastruktur ist auf der ganzen Welt verteilt. Aber die Wikimedia-Projekte passen in jedem Fall in unser Mission Statement.

Ihr verfolgt das gleiche Ziel wie Wikimedia: Freies Wissen und verlässliche Informationen allen zur Verfügung zu stellen. Warum ist das wichtig?

Sebastian Majstorovic: Wir schlittern seit Jahren in eine postfaktische Welt, es ist das erklärte Ziel von Extremisten und Rechtspopulisten, aus Fakten Meinungen zu machen. Denn was Meinung ist, darf angegriffen und in Frage gestellt werden. Schon von daher müssen wir verlässliche Quellen und gesicherte Informationen schützen. Das ist wichtig für die Demokratie. Um es für die Daten konkret zu machen: Kein Land produziert so viele offene Daten wie die USA, nirgendwo sonst existiert eine vergleichbare Forschungsinfrastruktur. Wenn die USA als Lieferant von offenen Daten wegfallen, bricht also eine Kultur der offenen Daten weltweit weg. Deswegen ist es so wichtig, gerade jetzt die offenen Daten aus den USA zu erhalten und zu bewahren.

Henrik Schönemann: Freies und offenes Wissen wird geschaffen, erweitert und vermittelt von Menschen für Menschen, ehrenamtlich oder finanziert durch öffentliche Gelder. An diesem Bankett des Wissens teilzuhaben steht nicht nur einer Elite zu, da bin ich ganz bei Aaron Swartz. Momentan sehen wir, wie Speisen vom Tisch entfernt und andere sogar vergiftet werden. Dagegen müssen wir uns gemeinschaftlich wehren: Für unser aller Zukunft.

PS: Auch am Leibniz-Informationszentrum Technik und Naturwissenschaften in Hannover (TIB) sichern Forscher in den USA bedrohte Daten. Wie genau, zeigt dieser Beitrag vom NDR.

Wikipedia unter Druck

MOR für Wikimedia Deutschland, CC BY-SA 4.0

Der freie Zugang zu Wissen steht weltweit zunehmend unter Druck. Autoritäre Staaten wie China und Russland haben bislang versucht, Wikipedia durch Zensur einzuschränken. Auch in den Vereinigten Staaten, dem Mutterland der freien Online-Enzyklopädie, wurde Wikipedia kürzlich von Regierungsbehörden auf den Prüfstand gestellt. Dieser Blogbeitrag zeigt einen Überblick der aktuellen Entwicklungen in den USA.

#Freies Wissen #Open Data #Wikipedia

Mehr Raum für marginalisiertes Wissen: Drei Projekte aus dem re·shape–Förderprogramm 2024/25

Ein Blick auf die Fenster vom FürthWiki-Laden.

Interview

“RegioWikis sind die kleinen Geschwister der Wikipedia”

Freies Wissen in Gefahr

Wikipedia unter Druck

Konferenz

Wem gehört Freies Wissen? Eine Konferenz zum Einfluss von Macht und Geschichte

Kommentare

Renate Schittek
22. Juli 2025 um 17:24 Uhr

Ich möchte mich mit meinem Dank anschließen und bin froh, mit meinem Mitgliedsbeitrag und meinen Spenden einen kleinen Anteil zur Finanzierbarkeit von Wikipedia beizutragen. Ihr seid eine unverzichtbare Institution und der Blogbeitrag zu Entwicklungen in USA zeigt, wie wichtig eure Arbeit ist. Bitte weiter so! Außerdem freut es mich, dass doch viele Kommentare in die gleiche Richtung weisen! Freundliche Grüße, Renate Schittek

Antworten
Karsten Thomas Weis
22. Juli 2025 um 12:06 Uhr

Vielen Dank für Eure Arbeit! Das sind wirklich düstere Zeiten, in die wir hier zusehends abgleiten. Wenn Wissen und Fakten zum Feindbild werden, dann sind die mittelalterlichen Zustände nicht mehr weit entfernt.

Antworten
Dr. Albrecht Kadauke
21. Juli 2025 um 19:04 Uhr

Ich würde nicht so viel veröffentlichen, wer welche Daten wo und wie sichert. Der Feind hört immer mit...

Antworten
Klaus Zerkowski
21. Juli 2025 um 15:57 Uhr

Wie wäre es mit einer Anfrage bei Munic Re und bei der Allianz, ob diese Geld spenden können? Immerhin geht es auch um Klimadaten und Gesundheitsdaten, die auch für beide wichtig sind. Probieren kann man es ja mal.

Antworten
Wolf-Dietrich Wildegans
20. Juni 2025 um 10:34 Uhr

Danke für die Information, ich bin nur in der Lage, mit einer kleinen zusätzlichen Spende zu helfen, aber wenn das viele tun kommt auch ein grösserer Betrag zusammen um Serverplatz zu betreiben. Nur Mut es wird auf jeden Fall weitergehen. Wolf-D. Wildegans

Antworten
Ute Stahl
19. Juni 2025 um 17:02 Uhr

Vielen Dank,für Eure hervorragende Arbeit.Ohne Zugang zu Wissen werden immer mehr Menschen zu Marionetten der 'Diktatorischen Regenten' .Auch bei Euch in den USA.Denn ein 'NARZISTISCHER PSYCHOPATH' der die Alleinherrschaft anstrebt und einen Polizeistaat aufbauen will kann 'KEINERLEI GEGENWIND' gebrauchen.Bibliotheken sind schon vor tausenden von Jahren in Flammen aufgegangen,weil die Sieger kein wissendes Volk haben wollten, sondern : Demütige Menschen die man leicht in 'ANGST & SCHRECKEN' versetzen konnte um sie besser führen zu können.Heutzutage stellen Diktatoren einfach das Internet ab oder Hacker löschen Daten.Denn 'Dummheit und Unwissenheit ' ist viel leichter zu manipulieren. Fake News tun ihr übriges. DANKE !!!

Antworten

Cookie	Typ	Dauer	Beschreibung
cli_user_preference			Dieses Cookies speichert, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine personenbezogenen Daten.
cookielawinfo-checkbox-necessary		1 year	Zustimmung der Kategorie "Essenziell".
CookieLawInfoConsent		1 year	Dieses Cookies speichert, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine personenbezogenen Daten.
viewed_cookie_policy	ständig	1 Stunde	Dieses Cookies speichert, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine personenbezogenen Daten.

Cookie	Typ	Dauer	Beschreibung
cookielawinfo-checkbox-einstellungen	0	1 year	Zustimmung der Kategorie "Einstellungen"
pll_language	0	1 year	Das Cookie speichert den Sprachcode der zuletzt besuchten Seite.

Cookie	Typ	Dauer	Beschreibung
_pk_id.1.64ac	0	1 year	Cookie von Matomo
_pk_ses.1.64ac	0	30 minutes	Cookie von Matomo
cookielawinfo-checkbox-matomo		1 year	Zustimmung der Kategorie "Matomo"

Cookie	Typ	Dauer	Beschreibung
_pk_id.1.64ac	0	1 year	Cookie von Matomo
_pk_ses.1.64ac	0	30 minutes	Cookie von Matomo
cookielawinfo-checkbox-matomo-und-heatmap		1 year	Zustimmung der Kategorie "Matomo und Heatmap"

Freies Wissen in Gefahr

Im Einsatz für die Datenrettung

Henrik, Sebastian, gab es einen konkreten Impuls für den Start eures jeweiligen Projekts?

Welche Daten sind aktuell besonders bedroht, worauf fokussiert ihr euch?

Wer sind eure Mitstreiter*innen?

Wen meinst du damit?

Podcast: Zersplittert der geopolitische Wettkampf den globalen Zugang zu Wissen?

Wo sichert ihr die Daten, welche Ressourcen benötigt ihr am dringendsten?

Über welche Kosten sprechen wir da?

Wäre in euren Projekten auch Platz für die Wikipedia?

Ihr verfolgt das gleiche Ziel wie Wikimedia: Freies Wissen und verlässliche Informationen allen zur Verfügung zu stellen. Warum ist das wichtig?

Wikipedia unter Druck

Verwandte Artikel

Mehr Raum für marginalisiertes Wissen: Drei Projekte aus dem re·shape–Förderprogramm 2024/25

“RegioWikis sind die kleinen Geschwister der Wikipedia”

Wikipedia unter Druck

Wem gehört Freies Wissen? Eine Konferenz zum Einfluss von Macht und Geschichte

Kommentare

Schreibe einen Kommentar Antwort abbrechen

DSGVO Hinweis