Wikidata und Künstliche Intelligenz: Vereinfachter Zugang zu offenen Daten für Open-Source-Projekte
Corinna Schuster
17. September 2024
Immer mehr Menschen nutzen KI-Anwendungen – auch für die Informationsbeschaffung. Umso wichtiger ist es, dass sie mit verlässlichen Daten trainiert werden. Gleichzeitig dominieren große Unternehmen die Entwicklung von ChatGPT & Co. Um die Entwicklung gemeinnütziger KI-Projekte zu unterstützen und zu einem verlässlichen Informationsökosystem beizutragen, hat Wikimedia Deutschland ein neues Projekt gestartet, das die Nutzung der offenen Daten aus Wikidata erleichtert.
Wikidata stellt als offene Wissensdatenbank mit über 112 Millionen maschinen- und menschenlesbaren Einträgen eine zentrale Quelle für qualitativ hochwertige und offene Daten dar. Alle Wikimedia-Projekte, insbesondere Wikipedia, greifen auf diese Daten zu, um Informationen wie z. B. Einwohnerzahlen oder Geburtsdaten automatisch zu aktualisieren. Unterstützt von über 12.000 ehrenamtlichen Beitragenden bietet Wikidata eine umfassende und geprüfte Datenbasis. Für Entwickler*innen von Open-Source-Projekten sind die Daten zwar zugänglich – um sie auch für KI-Trainings nutzen zu können, fehlen ihnen aber oft die Ressourcen. Diese stehen meist nur großen Technologieunternehmen zur Verfügung.
Vektorisierte Daten für maschinelles Lernen
Ziel des neuen Projektes ist es, künftig vor allem auch kleineren Open-Source-Projekten die Möglichkeit zu geben, die Daten aus Wikidata zu nutzen. Daher hat sich Wikimedia Deutschland mit DataStax und Jina AI zusammengetan, um die Wikidata-Daten so aufzubereiten, dass auch kleinere Projekte ohne die finanziellen und personellen Ressourcen großer Unternehmen sie nutzen können.
Im Mittelpunkt des neuen Projekts steht die Transformation der Wikidata-Daten in semantische Vektoren – ein aufwendiger aber notwendiger Schritt, den Open-Source Entwickler*innen in der Regel nicht alleine stemmen können. DataStax stellt hierfür eine leistungsfähige Vektordatenbank bereit, während Jina AI ein Open-Source-Modell zur Vektorisierung der Textdaten beisteuert.
Diese Umwandlung der Daten in Vektoren erlaubt es Entwickler*innen, semantische Suchanfragen effizienter durchzuführen und die Daten von Wikidata in ihre KI-Modelle zu integrieren. Das ermöglicht nicht nur eine schnellere und präzisere Suche, sondern vereinfacht auch den Prozess der Einbindung von Wikidata in sogenannte RAG-Anwendungen (Retrieval-Augmented Generation). Diese Anwendungen minimieren KI-Fehler, indem sie aktuelle und verifizierte Fakten in ihre Ergebnisse einfließen lassen.
Ein weiteres Ziel des Projekts ist es, Vandalismus auf Wikidata besser zu erkennen. Da generative KI in der Lage ist, Inhalte massenhaft zu erstellen, kann dies auch zur Verbreitung von falschen Informationen beitragen. Die Vektorisierung der Daten ermöglicht es, potenziell schädliche Änderungen an den Wikidata-Einträgen schneller zu identifizieren und zu korrigieren.
KI und die Werte von Wikimedia Deutschland
Wikimedia setzt dabei auf die Werte der Transparenz und des freien Zugangs zu Informationen in Form von offenen Daten. Besonders im Hinblick auf generative KI, die oft fehlerhafte Inhalte generiert, ist die Bereitstellung validierter Daten eine wichtige Maßnahme, um die Qualität von KI-generierten Inhalten zu verbessern.
Dr. Jonathan Fraine, Leiter der Softwareentwicklung bei Wikimedia Deutschland, erklärt: „Viele Entwickler*innen teilen unsere Werte, aber der Zugang zu Wikidata ist für sie eine Herausforderung. Wir müssen den Prozess vereinfachen, um die enormen Datenvolumen für die neuesten generativen KI-Entwicklungen nutzbar zu machen.“ Lydia Pintscher, Portfolio Lead Wikidata, ergänzt: „Durch die Bereitstellung hochwertiger, offener Daten unterstützen wir die Communitys dabei, innovative Ideen zu entwickeln, die der Menschheit zugutekommen, statt kommerziellen Zwecken zu dienen.“
Wikidata als Basis für eine gerechtere digitale Zukunft
Die Bedeutung dieses Projekts liegt darin, die Daten von Wikidata als verlässliche Quelle für KI-Entwicklungen zu etablieren. In einer Zeit, in der KI-generierte Inhalte zunehmend das Internet dominieren, besteht die Gefahr, dass ungeprüfte und oft falsche Informationen verbreitet werden. Wikidata bietet hier eine stabile Alternative: Die Wissensdatenbank verfügt über ein enormes Datenvolumen und die Informationen sind öffentlich zugänglich, frei lizenziert und sie werden durch eine aktive Community ständig überprüft und erweitert.
Durch die Zusammenarbeit mit DataStax und Jina AI schafft Wikimedia Deutschland die technische Infrastruktur, um die offene Wissensquelle Wikidata auch für kleinere Entwicklerteams nutzbar zu machen. Langfristig kann dies dazu beitragen, dass sich Open-Source-KI-Projekte gegenüber den dominierenden Tech-Giganten besser behaupten können. Gleichzeitig wird der Zugang zu verlässlichen Daten für alle vereinfacht, was den demokratischen Zugang zu Wissen in einer digitalisierten Welt unterstützt.
Die Zukunft der KI bei Wikimedia Deutschland
Wikimedia Deutschland hat im Dezember 2023 mit der Umsetzung dieses semantischen Suchkonzepts begonnen. Die ersten Beta-Tests eines Prototyps sind für 2025 geplant. Dieses Projekt ist eine große Chance, KI-Anwendungen und das Informationsökosystem zu verbessern und gleichzeitig die Grundwerte der Offenheit und Transparenz zu wahren.
Dieses Vorhaben ist ein wichtiger Schritt in der Mission von Wikimedia Deutschland, Freies Wissen für alle zugänglich zu machen. Mithilfe von maschinellem Lernen und semantischer Suche wird der Zugang zu den wertvollen Daten von Wikidata weiter vereinfacht, was nicht nur die Entwickler-Community, sondern die Gesellschaft als Ganzes voranbringen kann.
Vorstellung des Projektes in Paris
Jonathan Fraine (Leiter der Softwareentwicklung bei Wikimedia Deutschland) und Lydia Pintscher (Portfolio Lead Wikidata) präsentierten das neue Projekt auf dem „AI_dev: Open Source GenAI & ML Summit Europe 2024“ in Paris. Die Präsentation ist auf YouTube verfügbar.
Der größte Schatz der Zukunft werden sichere und verifizierte Informationen sein. KI wird eine schier unübersehbare Menge an Daten erzeugen, die nur teilweise oder garnicht auf Fakten und Realitäten fußen. Durch den permanenten Informationsaustausch in den Netzen werden diese “Un-Fakten” in die Datenbanken einsickern und zu “Tatsachen” werden. So wie jetzt schon Realität und Fiktion miteinander verschwimmen, so kann es auf den Datenbanken zu einem Zustand kommen, in dem man den angebotenen Inhalten nicht mehr trauen kann. Der Menschheit geht eines der wichtigsten Orientierungspunkte für das Leben, die Wahrheit verloren. Setzt bitte alles daran, das Wikidata ein Fels in der Brandung bleibt. Ja auch dafür kann KI eingesetzt werden, aber mit äußerster Vorsicht. Nicht der freie Zugang zum Wissen wird das Problem von morgen sein, sondern wo kann man noch verlässliches und fundiertes Faktenmaterial finden.
Ich halte die Zielsetzung, “Vandalismus auf Wikidata besser zu erkennen”, für äußerst wichtig! Daher großer Respekt für dieses Projekt und meine Hoffnung, dass die Ziele auch wirklich erreicht werden!
Als Laie auf dem Gebiet der EDV und damit natürlich auch KI würde ich gerne besser verstehen, wie (Zitat) “Die Vektorisierung der Daten ermöglicht es, potenziell schädliche Änderungen an den Wikidata-Einträgen schneller zu identifizieren und zu korrigieren.” (Zitat Ende). Wo gibt es verständliche Informationen dazu, wie und warum das so ist?
Beste Wünsche an das Projektteam!
Vielen Dank!
Eine Möglichkeit die wir uns vorstellen, wie man Datenprobleme in diesem Zusammenhang finden kann: Die Daten werden in einem Vektorraum verortet. Dabei werden ähnliche Daten nahe beieinander liegen. Ein Beispiel wäre der Datensatz zu einer bestimmten Botschaft. Dieser sollte nahe bei Datensätzen zu anderen Botschaften im Vektorraum liegen. Wenn jetzt jemand zum Beispiel eine Schuhgröße zum Datensatz der Botschaft hinzufügt, liegt sie plötzlich nicht mehr nahe bei den anderen Botschaften. Das könnte man ausnutzen um Anomalien zu finden.
Wir sind noch am Anfang von dem ganzen Projekt und werden dazu in den nächsten Monaten mehr kommunizieren und veröffentlichen.
Viele Grüße
Lydia
Als regelmäßiger Nutzer weiß ich Wikipedia sehr zu schätzen.
Es freut mich zu hören, dass KI-Projekte gestartet werden. Ich erhoffe mir davon, dass das Auffinden der treffenden Inhalte dadurch verbessert wird. Die Suchfunktion in Wikipedia ist eher schwach. Deshalb gehe ich zumeist den Umweg über eine Googel-Suche.
Also: die Erwartung ist hoch! :-)
Sehr geehrte Frau Schuster,
verehrtes Wiki-Team,
das bereits begonnene Projekt ist aus meiner Sicht vor allem für die Bewahrung und Sicherung unseres Grundgedankens von ausschlaggebender Bedeutung. Die heutigen Suchmaschinen können im “Rückwärtslauf” natürlich auch Datensammlungen wie Wikidata infizieren und manipulieren – und das in einem Umfang, den wir noch nicht ermessen können, der aber mit den Quantenrechnern prinzipiell bereits heute möglich ist. Dann hat die Wahrheit keine Chance mehr. Denn: “Das Sein bestimmt das Bewusstsein”, aber: wer beschreibt dann das “Sein”?
Eure Arbeit für eine offene KI-Welt finde ich prima und unterstütze sie durch verdoppelung meines fin. Beitrages – erhöhe die Lastschriftermächtigung entsprechend
Kann man mittels KI ein Filmdrehbuch schreiben? Welche Vorlagen sind erforderlich, was muss beachtet werden?
ich finde den Gedanken und die Überlegungen den Zugang für kleinere Entwickler Gruppen zu erleichtern grundsätzlich sehr gut.
Ich frage mich nur, wie der Zugang von unerwünschten Entwicklergruppen verhindert werden kann.
Das freut uns zu hören. Vielen Dank.
Generell sind unsere Daten offen und jedem/jeder zugänglich. Das ist ein wichtiger Grundbaustein, dessen was Wikimedia ausmacht. Wir versuchen also weniger unerwünschte Gruppen davon abzuhalten unsere Daten zu nutzen und setzen eher darauf, denen, die wir für besonders wichtig und unterstützenswert halten, mehr zu helfen.
Viele Grüße
Lydia