

Patrick Wildermann
11. Juni 2025
Sebastian Majstorovic aus Köln arbeitet als digitaler Historiker und Open Data Specialist und betreibt mit einem Netz aus Freiwilligen das Data Rescue Project. Zuvor hat er sich bereits bei dem Projekt „Saving Ukrainian Cultural Heritage Online“ (kurz SUCHO) engagiert, das ukrainische Kulturdaten vor russischen Attacken bewahrte. Henrik Schönemann – digitaler Historiker und Mitarbeiter am Interdisziplinären Zentrum Digitalität und Digitale Methoden der Humboldt-Universität zu Berlin – hat das Projekt Safeguarding Research & Culture initiiert. Beide verfolgen das gleiche Ziel: Daten zu retten, die von der Löschung bedroht sind. Gegenwärtig liegt ihr Fokus auf Daten, die in den USA bedroht sind.
Henrik, Sebastian, gab es einen konkreten Impuls für den Start eures jeweiligen Projekts?
Sebastian Majstorovic: Ich habe schon nach der Wahl von Donald Trump befürchtet, dass so eine Datenrettungsaktion nötig sein könnte. Anfang Februar erreichte mich dann eine Nachricht von einem Insider aus dem Weißen Haus, in der es hieß: heute um 5 Uhr nachmittags sollen die Websites aller Bundesbehörden offline gehen. Tatsächlich waren dann später zum Beispiel das Census Bureau, das Statistikamt oder die nationale Gesundheitsbehörde CDC vorübergehend nicht erreichbar. Es hieß: „Wartungsarbeiten werden durchgeführt“. Weil Behördendaten in den USA grundsätzlich offen sind – und weil ich Zugang zu einem großen Server habe – begann ich gleich nach dieser Nachricht, 150 Terabyte an Daten herunterzuladen – erst einmal unstrukturiert, nur um sie zu sichern.
Henrik Schönemann: Für mich war ein Tag im Januar dieses Jahres ausschlaggebend. Am Lehrstuhl für Digital History der Humboldt-Universität hat sich ein Forschungsprojekt aus den USA vorgestellt: „Mapping the Gay Guides. Visualizing Queer Space and American Life“. Da geht es darum, Handbücher und Booklets aus den 1960er und 70er Jahren als Quellen aufzubereiten, in denen festgehalten ist, welche Orte damals für die Gay Community als sicher eingestuft wurden. Die Mitarbeitenden dieses Projekts legen Wert darauf, dass all ihre Daten und ihr Code Open Access sind. Ich fragte sie: Wo liegen denn eure Daten? Die Antwort: Bei GitHub, also bei Microsoft. Und nirgendwo sonst. Angesichts des zunehmend queerfeindlichen Klimas, das sich in den USA schon abzeichnete, habe ich angeregt, die Daten noch an einem anderen Ort zu speichern und deren vier Repositorien zur freien Plattform Codeberg migriert. Das war eine Art Startschuss.
Welche Daten sind aktuell besonders bedroht, worauf fokussiert ihr euch?
Sebastian Majstorovic: Tatsächlich gibt es praktisch keine Daten, die nicht bedroht wären. Nehmen wir das föderale Bildungsministerium in den USA, das jetzt entkernt wurde und nur noch dazu da sein soll, Studiengebühren einzutreiben. Das hat ein Forschungs Repositorium (ERIC) betrieben, in dem über 2 Millionen pädagogisch-wissenschaftliche Publikationen katalogisiert sind. 500.000 PDFs davon sind Open Access, jeder kann sie herunterladen. Sie liegen aber nur auf den Servern dieses Repositoriums. Ein Freiwilliger hat sich daran gemacht, alle 500.000 Links herunterzuladen und an die Wayback Machine des Internet Archives zu schicken. Zusammen haben wir ein neues Interface entwickelt, damit man sie beim Data Rescue Project wieder abrufen kann. Genauso sind in den USA die Bundesmuseen betroffen, die Smithsonian Institutions – überhaupt jede Einrichtung, die auf irgendeinem Weg Bundesmittel bekommt.
Henrik Schönemann: Wir haben ein Mission-Statement auf unserer Homepage dazu formuliert, was wir retten. Die Spanne ist weit gefasst, es geht um große Datensets zu Themen wie Umwelt und Gesundheit bis zu individuellen Websites und Podcasts. Wenn uns jemand auf Public Data hinweist, an denen mindestens eine Person Interesse hat und die in irgendeiner Form gefährdet sind, nehmen wir sie auf. Der Fokus liegt auch bei uns aktuell auf den USA, weil dort so viel Forschungs-Infrastruktur existiert und die Bedrohungslage sich zuspitzt. Sebastian hat das Repositorium ERIC erwähnt. Damit die öffentlichen Daten auch außerhalb des Internet Archives verfügbar sind, haben wir sie unserem Speichernetzwerk hinzugefügt. Aber wir verfügen auch schon über einen deutschen Datensatz, das Regenbogen-Portal der Bundesregierung zu sexueller und geschlechtlicher Vielfalt, das im November 2024 sang- und klanglos abgeschaltet wurde – mit der Begründung, die Aufrechterhaltung werde zu teuer. Zum Glück hat jemand einen Tag vorher ein sauberes Web-Archiv erstellt.
Wer sind eure Mitstreiter*innen?
Sebastian Majstorovic: In unserem Netzwerk sind Hunderte Freiwillige organisiert, die bereits über 1000 Datensätze in unserem Data Rescue Tracker katalogisiert haben. Nicht um alles kümmern wir uns selbst, es gibt verschiedene Initiativen, die sich beispielsweise schon seit 2016 auf Klimadaten fokussieren, andere auf Gesundheitsdaten. Wir versuchen zu koordinieren: Wo liegen welche Daten, wer kümmert sich bereits um was? Und wir laden eben auch selbst Daten herunter. Beim Data Rescue Project engagieren sich viele Datenprofis, manchen wurde allerdings von ihren Institutionen explizit verboten, offiziell in Erscheinung zu treten…
Wen meinst du damit?
Sebastian Majstorovic: Da spreche ich von amerikanischen Freiwilligen, die an Universitäten oder Bibliotheken beschäftigt sind, die ihre Fördergelder nicht riskieren wollen. Anders als beim Ukraine-Projekt, wo wir alle mit Klarnamen gearbeitet haben – obwohl es auch nicht ungefährlich ist, Russland zu verärgern – setzen wir deswegen auf Usernamen. Ausgenommen sind Menschen wie ich, die sich dazu bereit erklären, öffentlich das Gesicht der Initiative zu sein.
Henrik Schönemann: Bei Safeguarding Research and Culture sind wir ein Kernteam aus 10 Leuten, eine weitere Handvoll ist in einem engeren Zirkel drumherum. Und es gibt das Forum mit 250 angemeldeten Accounts, in dem wir sehr viel organisieren. 50 bis 60 davon sind stärker aktiv. Im Kernteam sind Leute sowohl aus der Wissenschaft, als auch nicht-wissenschaftliche Kräfte. Ich bin der einzige Historiker und der einzige aus dem Bereich Digital Humanities. Es ist ein breit gefächertes Netzwerk, in dem ebenfalls weitgehend Pseudonymität besteht. Aber man kann bei uns leicht mitmachen und sofort etwas tun.
Podcast: Zersplittert der geopolitische Wettkampf den globalen Zugang zu Wissen?
Sebastian Majstorovic ist auch Gast in unserem Podcast Wissen. Macht. Gerechtigkeit. Gemeinsam sprachen wir darüber, wie digitale Mauern, Zensur und Plattformregulierungen den den internationalen Wissensaustausch beeinflussen. Welche Auswirkungen hat der globale Wettstreit um technologische Vorherrschaft auf Forschung, Wissenschaft und offene Bildung – und was bedeutet das für den Zugang zu verlässlichem Wissen weltweit?
Wo sichert ihr die Daten, welche Ressourcen benötigt ihr am dringendsten?
Sebastian Majstorovic: Speicherplatz. Ich glaube, vielen ist nicht bewusst, wie teuer Cloud-Speicherplatz ist. Bei einem internationalen Projekt wie unserem reicht es eben nicht, sich eine große externe Festplatte zuzulegen. Ein Beispiel: Mehrere Freiwillige haben ein Backup der Daten des Census Bureau erstellt, ich habe vielleicht 200 GB gesichert, ein Mitstreiter von Stanford hat es geschafft, 3 Terabyte herunterzuladen, ein Freiwilliger auf Reddit konnte 6 Terabyte herunterladen. Diese Duplikate müssen wir vergleichbar machen, verpacken – also zippen – und dann der gesamten Öffentlichkeit wieder zum Download anbieten.
Über welche Kosten sprechen wir da?
Sebastian Majstorovic: Bei den großen Cloud-Anbietern kostet 1 Terabyte Speicherplatz ca 25 Euro pro Monat. Was die meisten nicht wissen: Wenn man das wieder zur Verfügung stellen will, kostet es 100 Euro, um 1 Terabyte downloaden zu lassen. Wir haben einen Anbieter gefunden, der diese Downloadgebühren nicht berechnet, damit wir überhaupt die Möglichkeit haben, dass andere die Daten spiegeln können. Wir wollen ja, dass die Daten eine langfristigere Heimat finden bei verlässlichen Institutionen, Archiven. Nur um das zu schaffen, brauchen wir schätzungsweise 3 Petabyte, also 3000 Terabyte, nur um mit den Daten zu arbeiten. Wenn man das auf drei Jahre budgetiert, landet man bei 1,8 Millionen Dollar.
Henrik Schönemann: Wir verfolgen einen komplett dezentralen, verteilten Ansatz. Wir kaufen nicht Speicherplatz in einem Rechenzentrum, unsere Lösung beruht auf Torrenting/Seeding, die Technologie dahinter ist fast 25 Jahre alt und hat ihre Verlässlichkeit oft unter Beweis gestellt.Das ist dasselbe Verfahren, mit dem man z.B. früher Filme illegal heruntergeladen hat. Die Technik selbst ist nicht illegal, nur der Content, der darüber bereitgestellt wurde, war eben urheberrechtlich geschützt. Torrenting funktioniert peer-to-peer. Es gibt keinen zentralen Server, über den etwas läuft, sondern Datensets oder Teile davon liegen auf einzelnen Rechnern, die sie jeweils zur Verfügung stellen. In unserem öffentlichen Katalog SciOp sind die 200 Datensets verzeichnet, über die wir aktuell verfügen. Und weil ein Datenset mehrere Uploads haben kann, sind es insgesamt über 370 Uploads, fast 113 Terabyte. Am redundanten Speichern und Bereitstellen beteiligen sich 5.500 Geräte, sodass unser gesamtes Speichnetzwerk momentan über 650 Terabytes ausmacht.
Wäre in euren Projekten auch Platz für die Wikipedia?
Sebastian Majstorovic: Wikipedia ist unglaublich kompakt, das ist der Vorteil. Es kümmern sich bereits sehr viele Menschen darum, dass es Offline-Kopien gibt – da mache ich mir wenig Sorgen. Das heißt natürlich nicht, dass die Wikipedia auch live erreichbar wäre, das ist etwas anderes. Aber die Rohdaten sind als Datensatz sehr gut verteilt und geschützt.
Henrik Schönemann: Zum Beispiel legt kiwix alle sechs Monate eine lokale Offline-Kopie der Wikipedia-Inhalte an, die Wikimedia Foundation ist auch Partner in dem Projekt. Allerdings betrifft das nur die englischsprachige Ausgabe. Und nicht das ganze Drumherum: die Versionsgeschichten der Artikel, die Diskussionen, die Infrastruktur, die Daten, die bei Wikimedia Commons oder Wikidata liegen. Wenn es da einen sauberen Datendump gibt, könnten wir den bei uns hinzufügen. Wichtig wäre, dass das abgesprochen geschieht, koordiniert. Am besten mit Leuten aus den Projekten selbst, die sich um Infrastruktur dort kümmern. Momentan mache ich mir über die Daten weniger Sorgen, die Infrastruktur ist auf der ganzen Welt verteilt. Aber die Wikimedia-Projekte passen in jedem Fall in unser Mission Statement.
Ihr verfolgt das gleiche Ziel wie Wikimedia: Freies Wissen und verlässliche Informationen allen zur Verfügung zu stellen. Warum ist das wichtig?
Sebastian Majstorovic: Wir schlittern seit Jahren in eine postfaktische Welt, es ist das erklärte Ziel von Extremisten und Rechtspopulisten, aus Fakten Meinungen zu machen. Denn was Meinung ist, darf angegriffen und in Frage gestellt werden. Schon von daher müssen wir verlässliche Quellen und gesicherte Informationen schützen. Das ist wichtig für die Demokratie. Um es für die Daten konkret zu machen: Kein Land produziert so viele offene Daten wie die USA, nirgendwo sonst existiert eine vergleichbare Forschungsinfrastruktur. Wenn die USA als Lieferant von offenen Daten wegfallen, bricht also eine Kultur der offenen Daten weltweit weg. Deswegen ist es so wichtig, gerade jetzt die offenen Daten aus den USA zu erhalten und zu bewahren.
Henrik Schönemann: Freies und offenes Wissen wird geschaffen, erweitert und vermittelt von Menschen für Menschen, ehrenamtlich oder finanziert durch öffentliche Gelder. An diesem Bankett des Wissens teilzuhaben steht nicht nur einer Elite zu, da bin ich ganz bei Aaron Swartz. Momentan sehen wir, wie Speisen vom Tisch entfernt und andere sogar vergiftet werden. Dagegen müssen wir uns gemeinschaftlich wehren: Für unser aller Zukunft.
Wikipedia unter Druck
Der freie Zugang zu Wissen steht weltweit zunehmend unter Druck. Autoritäre Staaten wie China und Russland haben bislang versucht, Wikipedia durch Zensur einzuschränken. Auch in den Vereinigten Staaten, dem Mutterland der freien Online-Enzyklopädie, wurde Wikipedia kürzlich von Regierungsbehörden auf den Prüfstand gestellt. Dieser Blogbeitrag zeigt einen Überblick der aktuellen Entwicklungen in den USA.