Patrick Wildermann (freier Redakteur)
27. Oktober 2022
Lydia, Wikidata feiert 10. Geburtstag – wie hat das Projekt überhaupt seinen Anfang genommen?
Die Idee zu Wikidata existiert schon länger, mindestens seit der ersten Wikimania-Konferenz, die wir 2005 abgehalten haben. Damals haben Denny Vrandečić und Markus Krötzsch – die beiden Ideengeber von Wikidata – ein Paper mit dem Vorschlag eingebracht, Wikipedia maschinenlesbar zu machen. Die Leute sollten in die Lage versetzt werden, mit den Daten weiter zu arbeiten, die sich aus Wikipedia ziehen lassen. Daraus ist das Projekt Semantic MediaWiki entstanden, eine Software, mit der sich Daten abfragen und visualisieren lassen. Semantic MediaWiki war und ist sehr erfolgreich, hat es aber nie zur Anwendung in Wikipedia geschafft.
Denny hat dennoch an der Idee festgehalten, einen Wissensgraph aus Wikipedia zu bauen. Mit den Erfahrungen im Hintergrund, die aus Semantic MediaWiki gesammelt werden konnte – und mit Funding von Google, AI² und der Gordon and Betty Moore Foundation – hat Wikimedia Deutschland ein Team aufgesetzt, das mit der Arbeit an Wikidata beginnen sollte. Das war 2012. Wir haben mit 12 Leuten angefangen zu programmieren, und schon ein halbes Jahr später ist Wikidata live gegangen.
Welche Erfahrungen von Semantic MediaWiki sind in die Entwicklung von Wikidata eingeflossen?
Unter anderem ist das Semantic MediaWiki nicht multilingual, was aber für Wikidata entscheidend ist. Eine offene Datenbank, zu der Menschen aus aller Welt beitragen sollen, kann nicht nur auf Englisch funktionieren. Dazu kommt bei Wikidata, dass die Daten Referenzen haben, also nachvollziehbar ist, woher sie stammen. Auch ein entscheidender Punkt. Ein dritter Unterschied gegenüber Semantic MediaWiki, ist der Zentralitätsgedanke von Wikidata. Das Prinzip ist, dass sich sämtliche Sprachversionen von Wikipedia ihre Daten aus Wikidata holen – die dann nur einmal gepflegt werden müssen, statt mehrere hundert Mal für alle Versionen einzeln.
2012 war Lydia Pintscher Teil des Teams, das Wikidata entwickelt hat. Vor kurzem hat die freie Wissensdatenbank den Meilenstein von 100 Millionen Einträge überschritten. Warum das nur zum Teil ein Grund zum Feiern ist, darüber spricht Lydia in diesem Interwiew.
Was sind besondere Wegmarken in der Geschichte des Projekts?
Eine Wegmarke war die Freischaltung von Wikidata nach sechs Monaten – der Zeitpunkt, ab dem Editierende ihre ersten Items erstellen konnten. Ein weiterer wichtiger Punkt, nicht viel später, war die Möglichkeit, Links zu Wikipedia-Artikeln einzufügen. Bevor es Wikidata gab, fand sich zum Beispiel in der englischsprachigen Wikipedia am Ende eines Artikels der Hinweis auf die französische Version, die deutsche, die italienische und so fort – für alle Artikel sehr lange Listen, redundant geführt in jeder Wikipedia, was Chaos bedeutete. Schließlich müssen diese Links jeweils konsistent gehalten werden. Mithilfe von Bots, automatisiert also, haben Editoren sie in Wikidata importiert und dafür aus der Wikipedia entfernt. Ab dem Zeitpunkt hat Wikidata jede Menge neue Items bekommen…
Bitte erkläre diesen Schub genauer…
Es musste in Wikidata jetzt ein Item für jedes relevante Konzept geben, das irgendwo in der Wikipedia beschrieben wird. Ein Konzept – das ist zum Beispiel ‚Berlin’. Es gab Artikel über Berlin in fast 300 Wikipedien. Zum Item ‚Berlin’ in Wikidata konnten die Menschen jetzt im nächsten Schritt Daten sammeln. Das hat uns enorm geholfen, in relativ kurzer Zeit einen Grundstock an Daten aufzubauen, der dann verbessert und erweitert werden konnte.
Gab es eine ursprüngliche Idee, wem oder wozu diese Daten dienen sollten?
Für uns als Team waren die Prioritäten von Anfang an klar. Erstens: Daten sammeln und sie zentral zur Verfügung stellen für Wikipedia. Dann, in einem nächsten Schritt: dasselbe für die anderen Wikimedia-Projekte tun, für Wiki Commons, Wiktionary, Wikivoyage und so fort. Wobei unsere Daten ein Schatz sind, der nicht nur für Wikimedia-Projekte relevant ist, sondern auch für jeden anderen da draußen, der einen Grundstock an Daten über die Welt benötigt. Wir haben uns also darauf konzentriert, die Daten auch für alle außerhalb der Wikimediaprojekte zur Verfügung zu stellen. Der finale Schritt war dann die Erkenntnis, dass nicht nur unsere Daten relevant sind, sondern auch die Software, die wir für Wikidata entwickelt haben und mit der andere ihre eigene offene Wissensdatenbank aufbauen können – Wikibase. Das ist die Evolution des Projekts.
Wikidatas Daten stecken heute auch in Sprachassistenten wie Siri oder Alexa, in kommerziellen Projekten also. Ein unvermeidlicher Nebeneffekt der Open-Access-Philosophie?
Wir haben uns explizit entschlossen, unsere Daten unter cc0 zu veröffentlichen – was bedeutet, jede und jeder kann damit machen, was sie oder er will. Das schließt eben auch jegliche Art von kommerziellen Zwecken ein, ganz gleich, ob wir sie begrüßen oder nicht. Ganz abgesehen davon, dass es auch nichtkommerzielle Verwendungsmöglichkeiten gibt, die wir im Zweifelsfall nicht gutheißen. Ich sehe das ambivalent. Sprachassistenten sind genau die tools, über die Menschen heutzutage ihr Wissen beziehen. Entsprechend ist es mir lieber, wenn es aus einer Quelle stammt, zu der alle beitragen können und nicht aus einem verschlossenen System, auf das niemand Einfluss nehmen kann.
Welche technischen Innovationen haben in der zehnjährigen Wikidata-Geschichte einen Unterschied bedeutet?
Wichtig war sicher unsere Entscheidung, die Software Wikibase allen zur Verfügung zu stellen und den Zugang über Wikibase Cloud zu vereinfachen. Unser Wunsch ist, dass auch andere Menschen Wikibase-Instanzen aufsetzen, wo sie ihre eigenen Daten veröffentlichen und pflegen – damit wir in Wikidata darauf verlinken können, oder andersherum. Das ist aber technisch nicht ganz einfach. Wikibase Cloud ist ein Service-Angebot: Wikimedia Deutschland übernimmt das Hosting und eventuelle technische Probleme, die Betreiberin oder der Betreiber muss sich ausschließlich um die Inhalte kümmern.
Eine weitere Innovation war der Query Service, der Abfragen in Wikidata ermöglicht – und darauf aufbauend der Query Builder…
… der als neue „Superpower“ in der Welt von Open Data gefeiert wird – was genau verbirgt sich dahinter?
In Wikidata sind, wie besprochen, riesige Mengen an Daten verfügbar. Die Einwohnerzahl Berlins genau so wie der Name der Hauptstadt Paraguays, oder der Gewinnerin des „Oscars“ für den besten Tonschnitt. Der Punkt ist nur, dass diese Daten für sich genommen wenig aussagekräftig sind. Relevanter ist das Wissen, das aus ihnen gewonnen werden kann. Eine Frage könnte sein: wie viele Menschen aus Asien haben „Oscars“ gewonnen im Vergleich zu Menschen aus Europa oder den USA? Dazu muss man wissen: Wer hat einen „Oscar“ gewonnen, wo wurde diese Person geboren, auf welchem Kontinent liegt der Ort? Es geht darum, Verknüpfungen herzustellen. Dazu muss man in Wikidata Abfragen auf die Daten starten. Das ermöglicht der Query Builder.
Diese engagierten Menschen haben 2012 in Berlin Wikidata auf den Weg gebracht: John Erling Blad, Abraham Taherivand, Tobias Gritschacher, Jeroen De Dauw, Henning Snater, Lydia Pintscher, Daniel Kinzler, Markus Krötzsch, Silke Meyer, Denny Vrandečić, Katie Filbert, Daniel Werner, Jens Ohlig.
An welchen Projekten war Wikidata schon beteiligt?
Ein Beispiel ist das Forschungs-Projekt QURATOR, das wir im Verbund mit zehn Partnerorganisationen durchgeführt haben, darunter das Deutsche Forschungszentrum für künstliche Intelligenz GmbH (DFKI). Es stand unter der großen Überschrift „Kuratierungstechnologien“. Das Ziel war, Technologien zu entwickeln, die verschiedenen Wissensarbeitern die Arbeit erleichtern sollen, zum Beispiel Journalist*innen, die für einen Artikel recherchieren. Wir als Wikidata haben vor allem daran gearbeitet, unsere Daten einfacher nutzbar zu machen und die Editoren in die Lage zu versetzen, ihre Qualität zu steigern.
Welche Verantwortung bedeutet es, wenn mit Wikidatas Daten Algorithmen trainiert werden?
Die Verantwortlichkeiten sehe ich an verschiedenen Stellen. Eine ist sicher, dass wir mit Wikidata eine Datengrundlage zur Verfügung stellen müssen, die hoch qualitativ, repräsentativ, aktuell und verifizierbar ist. Das sehe ich als Aufgabe meines Teams und der Wikidata Community. Die nächste Stufe, an der sich entscheidet, ob etwas gut oder schlecht gemacht wird, ist die Frage: Wie benutzt der Algorithmus die Daten? Darauf haben wir allerdings keinen Einfluss, diese Verantwortung liegt bei den Entwicklern dieser Algorithmen.
Wie lassen sich Daten diskriminierungsfrei halten?
Ich fürchte, vollkommen diskriminierungsfrei werden sie nie sein, leider. Aber es gibt verschiedene Punkte, an denen sich ansetzen lässt. Der wichtigste ist in meinen Augen, dass wir ein offenes Projekt sind. Menschen, die Diskriminierung erkannt haben, können bei uns etwas dagegen unternehmen. Der andere Punkt ist, dass wir unserer Daten sehr genau in Hinblick darauf analysieren, wo wir Lücken haben, Verzerrungen, Biases. Wir haben zum Beispiel ein Gender Gap Dashboard, auf dem das Verhältnis von Männern vs. Frauen in den Wikipedien abgebildet ist, auch aufgesplittet nach Berufen. So eine Aufstellung war vor Wikidata gar nicht möglich, weil die Datengrundlage fehlte.
Was Diskriminierung ist, darüber finden permanent gesellschaftliche Aushandlungsprozesse statt. Was bedeutet das für eure Arbeit?
Das Schöne an Wikidata und an den Wikimedia-Projekten generell ist, dass man nicht an dem Punkt verharren muss, die Verhältnisse zu beklagen, sondern etwas gegen Missstände tun, konkret eine Situation verbessern kann – wie es zum Beispiel eine Gruppe wie Women in Red vormacht, die Artikel über Frauen in der Wikipedia schreibt und in Wikidata Einträge vornimmt. Das ist auch meine Haltung: Lasst uns etwas tun, nicht nur klagen!
Wo liegen noch ungehobene Potenziale von Wikidata?
Das sind so viele! Es gibt sicher etliche Apps, Services oder Webseiten, die heute nur noch nicht existieren, weil jemand noch nicht auf Wikidata gekommen ist, um die Idee zu verwirklichen. Auch bezüglich des Ausbaus unserer Daten gibt es noch Potenzial. Wir haben seit einigen Jahren einen neuen Teil in der Wikidata, der sich mit lexikographischen Daten befasst, also Daten, wie sie in einem Wörterbuch zu finden wären. Das ist noch ein ungehobener Schatz. In dem Linked-Open-Data-Ökosystems, das uns vorschwebt, können wir außerdem noch viel mehr Wikibase-Instanzen aufbauen, die neue, bessere Daten zugänglich machen und mit Wikidata verknüpft sind.
Fällt Dir persönlich ein Anwendungsfeld ein, das es noch nicht gibt, aber geben könnte?
Ein Service, der einen auf dem Laufenden hält über die Veröffentlichungen oder Aktivitäten von Musiker*innen oder Autor*innen, die man schätzt. Wann immer die Künstlerin oder der Künstler etwas Neues herausbringt, bekommt man eine Benachrichtigung: das neue Buch ist erschienen, die Tour steht an. Wikidata hat nicht alle Daten, die es dafür bräuchte. Aber das kann noch werden.
Mehr Wissenswertes über Wikidata!
Am 29. Oktober feiert Wikidata den 10. Geburtstag! Aus diesem Anlass haben wir eine Reihe von Blogartikeln mit vielen interessanten Fakten über die Geschichte der weltweit größten freien Wissensdatenbank und ihrer einzigartigen Community veröffentlicht:
Teil 1 über die Menschen, die Wikidata zu dem kollaborativen Projekt gemacht haben, das es heute ist.
Teil 1 über die Menschen, die Wikidata zu dem kollaborativen Projekt gemacht haben, das es heute ist.
Teil 1 über den Einfluss von Wikidata und den Mitwirkenden bei der Förderung der Wikimedia-Mission.
Teil 2 über den Einfluss von Wikidata und den Mitwirkenden bei der Förderung der Wikimedia-Mission.
Mehr über den Einfallsreichtum der Wikidata-Community und ihre Tools und Hacks.
Wikidata hat die Marke von 100 Millionen Items überschritten. Lydia Pintscher spricht über die Bedeutung dieses Meileinsteins.
Kommentare sind geschlossen.