Zum Inhalt überspringen
Zum Inhalt überspringen

Die Wikipedia ist die wichtigste Quelle für das Training generativer KI-Programme. Wenn es um die Nutzung der Inhalte zu Trainingszwecken geht, zieht Wikipedia-Mitgründer Jimmy Wales einen Vergleich zu Halloween: „Manche Leute stellen einfach einen Eimer mit Süßigkeiten für die Kinder vors Haus. Man vertraut darauf, dass jedes Kind nur eine Süßigkeit nimmt. Ich halte das für einen schönen Brauch. Wenn aber ein großer Rowdy kommt und den ganzen Eimer mitnimmt, weiß jeder: Das ist nicht fair“, so Wales im Interview mit dem Magazin „Der Spiegel“.

Die bekannten KI-Sprachmodelle wie ChatGPT oder Google Gemini werden zu einem großen Teil mit den Daten der Wikipedia trainiert. Schon weil die Online-Enzyklopädie den Large Language Models (LLMs) ideale Voraussetzungen bietet: Die Wikipedia ist in weit über 300 Sprachen verfügbar. Die Struktur der Artikel ist übersichtlich, sie enthalten Links und Zitate, liefern Kontexte und Weltanschauungen. Das gesammelte Wissen wird von Menschen moderiert, ist weltweit zugänglich – und vor allem kostenlos. Ein großer Vorteil aus Sicht der Konzerne, gerade in Zeiten, in denen Trainingsdaten zur begehrten Ware geworden sind und es immer weniger frei verfügbare Datensets gibt, die beim Webscraping der KI-Entwickler*innen noch nicht abgegrast wurden.

Allerdings verursacht das für Wikimedia hohe Kosten und Risiken. Automatisierte Zugriffe durch Bots und Crawler verursachen eine enorme Last auf den Servern, beanspruchen viele Ressourcen und belasten damit die Stabilität der Plattform für menschliche Nutzer*innen.  (mehr dazu in diesem Blog).

Mehr zum Thema: Deutschlandfunk-Interview mit Franziska Heine

Über das Problem der stark zunehmenden Zugriffe durch KI-Bots und Crawler spricht Wikimedia-Geschäftsführerin Franziska Heine auch im Interview mit dem Deutschlandfunk. Sie beleuchtet die Gefahren für die Wikipedia und zeigt Lösungen auf.

Wikimedia fordert verantwortungsvollen Umgang mit Wikipedia-Inhalten

„Wir sind froh, wenn die Wikipedia zum Training von KI-Modellen genutzt wird, schließlich ist es ja Open Source. Aber die KI-Bots erzeugen hohe Lasten“, erklärt auch Jimmy Wales und nennt ein Beispiel: „Als die britische Königin starb, hatten wir einen enormen Anstieg an Datenverkehr auf den Artikel über sie. Den konnten wir bewältigen, indem wir Kopien des Artikels im Arbeitsspeicher unserer Server behielten. Wenn die Bots der KI-Dienste jedoch auch alle unbekannten Artikel abrufen, müssen die jeweils aufs Neue aus der Datenbank geholt werden, was auf unseren Servern eine überproportionale Last verursacht und damit auch Kosten, die aus Spendengeldern finanziert werden müssen.“ Der Großteil der Spender*innen wolle aber die Wikipedia unterstützen – nicht Firmen mit Milliardenumsätzen.

Aus diesem Grund ruft auch die Wikimedia Foundation (WMF) als Trägerin der Wikipedia dazu auf, verantwortungsvoll mit den Inhalten der freien Online-Enzyklopädie umzugehen – und aktiv zum Erhalt des Projekts beizutragen. Im Blog „In the AI era, Wikipedia has never been more valuable“ werden dafür zwei einfache Maßnahmen vorgeschlagen: Erstens Quellenangaben und zweitens finanzieller Support.

Finanzieller Support und Anerkennung der Freiwilligen

Finanzielle Unterstützung können KI-Unternehmen leisten, indem sie über die Schnittstelle Wikimedia Enterprise auf die Wikipedia zugreifen. Das kostenpflichtige Opt-in ermöglicht es, die Inhalte der Wikimedia-Projekte in großem Umfang zu verwenden, ohne die Server zu stark zu belasten. Gleichzeitig wird die gemeinnützige Mission von Wikimedia unterstützt. Google zum Beispiel nutzt diese Option bereits. An weiteren Vereinbarungen mit großen Tech-Konzernen wird momentan gearbeitet, wie Wales bei einer Veranstaltung in New York berichtete.

Auch die Angabe, woher das Trainingswissen einer generativen KI stammt, ist aus mehreren Gründen wichtig. Denn so wird der menschlichen Leistung Anerkennung gezollt. Generative KIs sind heute zwar in der Lage, vorhandenes Wissen zusammenzufassen. Aber: Sie können sich nicht am Prozess der Debatte und an der Konsensfindung beteiligen, sie entdecken keine in Archiven vergrabenen Objekte und machen auch keine Fotos von unzureichend dokumentierten Orten – eben all das, was die Ehrenamtlichen der Wikimedia-Projekte jeden Tag leisten.

Zum anderen braucht Wissen Verlässlichkeit. Damit Menschen den Informationen im Netz vertrauen können, muss klar ausgewiesen sein, woher sie stammen. Im besten Fall führt das dazu, dass mehr Menschen über verlinkte Quellen direkt zum entsprechenden Wikipedia-Artikel gehen. So kann die Wikipedia auch in Zukunft ihre Relevanz als Mitmachprojekt behalten.

Wissen bleibt menschlich

Die 2025 vorgestellte neue KI-Strategie der WMF als Betreiberin der Wikipedia ist vor diesem Hintergrund mit dem programmatischen Titel „Humans First“ überschrieben. Die Community hinter der Wikipedia ist schließlich der Schlüssel für ihren Erfolg – und das seit 25 Jahren. Die Sorgfalt und das Engagement der Ehrenamtlichen für zuverlässiges enzyklopädisches Wissen kann keine KI ersetzen. Entsprechend sollen Sprach-KIs die Arbeit der Freiwilligen erleichtern – statt sie zu ersetzen. Das Motto hinter „Humans First“ lautet: „Making sure AI serves people and knowledge stays human“.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert