zur Artikelübersicht

Wikidata und Künstliche Intelligenz: Vereinfachter Zugang zu offenen Daten für Open-Source-Projekte

Wikimedia Deutschland hat zusammen mit DataStax und Jina AI ein Projekt gestartet, das den Zugang zu den offenen Daten von Wikidata für KI-Anwendungen vereinfacht. Dadurch sollen nicht nur Tech-Giganten, sondern auch Open-Source-Initiativen die Möglichkeit haben, diese Daten zu nutzen. Ziel ist es, vor allem die Entwicklung von gemeinnützigen KI-Anwendungen auf der Grundlage offener und qualitativ hochwertiger Daten zu unterstützen.

Corinna Schuster

17. September 2024

Immer mehr Menschen nutzen KI-Anwendungen – auch für die Informationsbeschaffung. Umso wichtiger ist es, dass sie mit verlässlichen Daten trainiert werden. Gleichzeitig dominieren große Unternehmen die Entwicklung von ChatGPT & Co. Um die Entwicklung gemeinnütziger KI-Projekte zu unterstützen und zu einem verlässlichen Informationsökosystem beizutragen, hat Wikimedia Deutschland ein neues Projekt gestartet, das die Nutzung der offenen Daten aus Wikidata erleichtert.

Wikidata stellt als offene Wissensdatenbank mit über 112 Millionen maschinen- und menschenlesbaren Einträgen eine zentrale Quelle für qualitativ hochwertige und offene Daten dar. Alle Wikimedia-Projekte, insbesondere Wikipedia, greifen auf diese Daten zu, um Informationen wie z. B. Einwohnerzahlen oder Geburtsdaten automatisch zu aktualisieren. Unterstützt von über 12.000 ehrenamtlichen Beitragenden bietet Wikidata eine umfassende und geprüfte Datenbasis. Für Entwickler*innen von Open-Source-Projekten sind die Daten zwar zugänglich – um sie auch für KI-Trainings nutzen zu können, fehlen ihnen aber oft die Ressourcen. Diese stehen meist nur großen Technologieunternehmen zur Verfügung.

Vektorisierte Daten für maschinelles Lernen

Ziel des neuen Projektes ist es, künftig vor allem auch kleineren Open-Source-Projekten die Möglichkeit zu geben, die Daten aus Wikidata zu nutzen. Daher hat sich Wikimedia Deutschland mit DataStax und Jina AI zusammengetan, um die Wikidata-Daten so aufzubereiten, dass auch kleinere Projekte ohne die finanziellen und personellen Ressourcen großer Unternehmen sie nutzen können.

Im Mittelpunkt des neuen Projekts steht die Transformation der Wikidata-Daten in semantische Vektoren – ein aufwendiger aber notwendiger Schritt, den Open-Source Entwickler*innen in der Regel nicht alleine stemmen können. DataStax stellt hierfür eine leistungsfähige Vektordatenbank bereit, während Jina AI ein Open-Source-Modell zur Vektorisierung der Textdaten beisteuert.

Diese Umwandlung der Daten in Vektoren erlaubt es Entwickler*innen, semantische Suchanfragen effizienter durchzuführen und die Daten von Wikidata in ihre KI-Modelle zu integrieren. Das ermöglicht nicht nur eine schnellere und präzisere Suche, sondern vereinfacht auch den Prozess der Einbindung von Wikidata in sogenannte RAG-Anwendungen (Retrieval-Augmented Generation). Diese Anwendungen minimieren KI-Fehler, indem sie aktuelle und verifizierte Fakten in ihre Ergebnisse einfließen lassen.

Ein weiteres Ziel des Projekts ist es, Vandalismus auf Wikidata besser zu erkennen. Da generative KI in der Lage ist, Inhalte massenhaft zu erstellen, kann dies auch zur Verbreitung von falschen Informationen beitragen. Die Vektorisierung der Daten ermöglicht es, potenziell schädliche Änderungen an den Wikidata-Einträgen schneller zu identifizieren und zu korrigieren.

KI und die Werte von Wikimedia Deutschland

Wikimedia setzt dabei auf die Werte der Transparenz und des freien Zugangs zu Informationen in Form von offenen Daten. Besonders im Hinblick auf generative KI, die oft fehlerhafte Inhalte generiert, ist die Bereitstellung validierter Daten eine wichtige Maßnahme, um die Qualität von KI-generierten Inhalten zu verbessern.

Dr. Jonathan Fraine, Leiter der Softwareentwicklung bei Wikimedia Deutschland, erklärt: „Viele Entwickler*innen teilen unsere Werte, aber der Zugang zu Wikidata ist für sie eine Herausforderung. Wir müssen den Prozess vereinfachen, um die enormen Datenvolumen für die neuesten generativen KI-Entwicklungen nutzbar zu machen.“ Lydia Pintscher, Portfolio Lead Wikidata, ergänzt: „Durch die Bereitstellung hochwertiger, offener Daten unterstützen wir die Communitys dabei, innovative Ideen zu entwickeln, die der Menschheit zugutekommen, statt kommerziellen Zwecken zu dienen.“

Wikidata als Basis für eine gerechtere digitale Zukunft

Die Bedeutung dieses Projekts liegt darin, die Daten von Wikidata als verlässliche Quelle für KI-Entwicklungen zu etablieren. In einer Zeit, in der KI-generierte Inhalte zunehmend das Internet dominieren, besteht die Gefahr, dass ungeprüfte und oft falsche Informationen verbreitet werden. Wikidata bietet hier eine stabile Alternative: Die Wissensdatenbank verfügt über ein enormes Datenvolumen und die Informationen sind öffentlich zugänglich, frei lizenziert und sie werden durch eine aktive Community ständig überprüft und erweitert.

Durch die Zusammenarbeit mit DataStax und Jina AI schafft Wikimedia Deutschland die technische Infrastruktur, um die offene Wissensquelle Wikidata auch für kleinere Entwicklerteams nutzbar zu machen. Langfristig kann dies dazu beitragen, dass sich Open-Source-KI-Projekte gegenüber den dominierenden Tech-Giganten besser behaupten können. Gleichzeitig wird der Zugang zu verlässlichen Daten für alle vereinfacht, was den demokratischen Zugang zu Wissen in einer digitalisierten Welt unterstützt.

Die Zukunft der KI bei Wikimedia Deutschland

Wikimedia Deutschland hat im Dezember 2023 mit der Umsetzung dieses semantischen Suchkonzepts begonnen. Die ersten Beta-Tests eines Prototyps sind für 2025 geplant. Dieses Projekt ist eine große Chance, KI-Anwendungen und das Informationsökosystem zu verbessern und gleichzeitig die Grundwerte der Offenheit und Transparenz zu wahren.

Dieses Vorhaben ist ein wichtiger Schritt in der Mission von Wikimedia Deutschland, Freies Wissen für alle zugänglich zu machen. Mithilfe von maschinellem Lernen und semantischer Suche wird der Zugang zu den wertvollen Daten von Wikidata weiter vereinfacht, was nicht nur die Entwickler-Community, sondern die Gesellschaft als Ganzes voranbringen kann.

Vorstellung des Projektes in Paris

Jonathan Fraine (Leiter der Softwareentwicklung bei Wikimedia Deutschland) und Lydia Pintscher (Portfolio Lead Wikidata) präsentierten das neue Projekt auf dem „AI_dev: Open Source GenAI & ML Summit Europe 2024“ in Paris. Die Präsentation ist auf YouTube verfügbar. 

By playing the video you agree that YouTube and Google might store and process your data. Please refer to Google’s Privacy Policy.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert