Vektordatenbank
Ein Meilenstein für offene KI: Das Wikidata Embedding-Projekt geht live


Zarah Ziadi
1. Oktober 2025
Technologie zum Wohle der Gesellschaft
Wikimedia Deutschland hat heute eine neue Vektordatenbank für Wikidata veröffentlicht, die ab sofort für alle frei zugänglich ist. Damit lassen sich die rund 120 Millionen offenen Daten der größten freien Wissensdatenbank der Welt erstmals unmittelbar für die Entwicklung generativer KI-Anwendungen nutzen. Dies kommt insbesondere auch Entwickler*innen aus der Freien Software-Bewegung zugute. Denn diese haben, anders als die großen Technologieunternehmen, bislang meist nicht die nötigen technischen und finanziellen Ressourcen, um die Datenmengen aus Wikidata für das Training ihrer Programme aufzuarbeiten. Das ändert sich mit der neuen Vektordatenbank.

Wir wollen eine Infrastruktur schaffen, die es allen ermöglicht, generative KI-Anwendungen zu entwickeln, die auf überprüfbaren, freien und offenen Daten basieren. Das ist ein wichtiger Schritt zu einer digitalen Welt, in der Technologien zum Wohl der Gesellschaft keine Randnotiz sind, sondern Standard.Wikidata Portfolio Lead bei Wikimedia Deutschland
Das Embedding-Projekt eröffnet Open-Source-Entwicklerteams auf der ganzen Welt neue Möglichkeiten, Large-Language-Modelle (LLMs) transparenter, verlässlicher und gerechter zu gestalten – und unterstützt damit die Entstehung von mehr Alternativen zu den meist proprietären Angeboten großer Tech-Konzerne.
So funktioniert das Embedding-Projekt
Die offene Wissensdatenbank Wikidata enthält aktuell knapp 120 Millionen Einträge, die von einer weltweiten Community mit rund 24.000 Freiwilligen ergänzt und gepflegt werden. Diese strukturierten Daten sind zwar maschinenlesbar, konnten bisher jedoch von generativen KI-Systemen nicht direkt genutzt werden, da diese für natürliche Sprache konzipiert sind.
Das Embedding-Projekt schafft hier eine Brücke: Wikidata-Inhalte werden in so genannte Vektoren übersetzt – also in eine Art Zahlenkoordinaten, die zeigen, wie unterschiedliche Aussagen miteinander in Verbindung stehen. Man kann sich das wie eine Landkarte vorstellen: Begriffe, die viel miteinander zu tun haben – wie etwa Hund und Welpe – liegen nah beieinander. Begriffe mit weniger Bezug – wie z. B. Hund und Bankkonto – liegen weiter voneinander entfernt. So können KI-Systeme besser „verstehen“, was bestimmte Begriffe bedeuten, und sie besser in natürlicher Sprache verarbeiten.
Damit die Vektordaten auch wirklich in generativen KI-Modellen und anderen Anwendungen genutzt werden können, gibt es zusätzlich eine Art USB-Stecker: das Model Context Protocol (MCP). Es sorgt dafür, dass KI und die Vektordatenbank miteinander „sprechen“ können. Ein wichtiger Schritt zur Erleichterung der Arbeit von Freien Software-Entwickler*innen. Einfach den USB-Stecker anschließen und die KI kann auf Wikidata’s Wissen zugreifen.
Die Stärken der Vektordatenbank
Nach dem Launch wird die neue Vektordatenbank stetig weiterentwickelt – aber schon die erste Version hat es in sich: Sie bietet erstmals die Möglichkeit, generative KI-Modelle direkt mit verlässlichen Daten aus Wikidata zu verbinden – und zwar über ein Verfahren namens Retrieval Augmented Generation (RAG). Normalerweise greift eine KI nur auf ihre schnell veralteten Trainingsdatensätze zurück – doch mit RAG kann die KI auch aktuelle Daten z. B. aus Wikidata abrufen (Retrieval) – das erweitert ihren Wissensschatz und macht ihn aktueller (Augmented) und die Ergebnisse (Generation) werden akkurater. Fehlerhafte oder erfundene Antworten lassen sich deutlich reduzieren.
Besonders interessant ist die Art der Suchoptionen: Neben der klassischen Keyword-Abfrage erlaubt die Vektorsuche eine semantische Erkundung von Themen und Beispielen. Während über eine Keyword-Abfrage alle Treffer das gesuchte Wort enthalten, geht die semantische Suche einen Schritt weiter: Sie findet auch Ergebnisse, die nah am gesuchten Thema dran sind, und ermöglicht Suchanfragen in natürlicher Sprache, wie etwa Fragestellungen.
Außerdem gibt es eine eingebaute Nachjustierung: Normalerweise werden Suchergebnisse nicht automatisch nach Relevanz sortiert. Die Suche in der Vektordatenbank enthält daher einen so genannten Reranker. Das ist ein spezialisiertes Large-Language-Model, das dafür sorgt, dass die passendsten Ergebnisse ganz oben auftauchen. Auch sprachlich ist die Vektordatenbank breit aufgestellt: Zum Start werden Abfragen in Englisch, Französisch und Arabisch unterstützt, weitere Sprachen wie Spanisch und Mandarin sollen folgen.
All das erleichtert nicht nur die Arbeit der Entwickler*innen, auch die Qualität der Ergebnisse wird durch das Embedding-Projekt deutlich verbessert. Die möglichen Anwendungsfelder reichen weit über generative KI hinaus – von Fact-Checking-Tools bis hin zur Bekämpfung von Vandalismus in offenen Projekten wie Wikidata. Egal ob Tools zur leichteren Bearbeitung von Wikidata oder gänzlich neue Apps – die Möglichkeiten sind vielfältig.

Der Start des Embedding-Projekts zeigt, dass leistungsstarke KI nicht von einer Handvoll Unternehmen kontrolliert werden muss – sie kann offen und kollaborativ entstehen.Philippe Saadé, AI/ML-Projektmanager bei Wikimedia Deutschland
Schneller Einstieg ins neue Embedding-Projekt Mit kostenlosem Webinar | Donnerstag, 9. Oktober, 18:00 Uhr
Wie funktioniert die neue Wikidata-Vektordatenbank – und was lässt sich damit alles machen? Projektmanager Philippe Saadé gibt einen Überblick, zeigt Beispiele und beantwortet Fragen. Jetzt dabei sein und Teil der Embedding-Projekt-Community werden!
Warum das zählt: verlässliche, transparente und faire KI
Das Embedding-Projekt ist nicht nur eine technologische Innovation, sondern auch ein gesellschaftliches Signal: Es zeigt, dass generative KI so gestaltet werden kann, dass sie dem Wohle der Menschen dient.
So kann die neue Vektordatenbank KI-Anwendungen zuverlässiger machen, weil sie auf von Menschen geprüften, frei verfügbaren Daten basiert und über RAG direkt auf die täglich aktualisierten Inhalte von Wikidata zugreifen kann. Sie macht Ergebnisse transparenter, da die Quellen nachvollziehbar ausgewiesen werden können. Und sie trägt zu gerechteren KI-Modellen bei, weil sie die Vielfalt der internationalen Wikidata-Community abbildet – mit Perspektiven und Themen, die in kommerziellen Datensätzen oft fehlen.

Ein Projekt mit starken Partnern
Als gemeinnütziger Verein ist Wikimedia Deutschland, so wie viele Freie-Software-Communitys, in seinen Ressourcen begrenzt. Deshalb hat sich das Projektteam starke Partner an seine Seite gestellt: DataStax, ein IBM-Unternehmen und führender Anbieter von KI- und Datenlösungen, sowie Jina AI, ein Berliner Spezialist für KI-gestützte Suche. Während Jina AI das Embedding-System bereitstellt, in dem Wikidata-Daten in Vektoren übersetzt werden, speichert DataStax diese in seiner Vektordatenbank Astra DB. Gemeinsam entwickeln die Kollaborationspartner das Wikidata Embedding-Projekt seit September 2024.
Die Zukunft von offener KI startet hier
Der Zugang zur Vektordatenbank ist ab sofort frei verfügbar unter: https://wd-vectordb.wmcloud.org/
Damit ist der Startschuss gefallen: Ab jetzt können Entwickler*innen auf der ganzen Welt die Vektordatenbank nutzen, um neue, bessere Anwendungen zu entwickeln – von KI-Systemen, die auf verlässlichen Fakten basieren, bis hin zu innovativen Tools für Recherche, Bildung oder Journalismus. Das Embedding-Projekt lädt damit zu einer digitalen Zukunft ein, in der offene und faire KI Realität wird.