Der folgende Beitrag ist ein Gastbeitrag von Magnus Manske, aktiver Toolentwickler rund um Wikidata und Autor der Software aus der später MediaWiki wurde.

Wikidata ist das jüngste Kind der Wikimedia-Familie und dient hauptsächlich als „Commons für Faktoide“, also als zentrales Archiv für die Schlüsseldaten der Wikipedia-Themen sowie für die Links zwischen den zahlreichen Sprachausgaben. Derzeitig umfasst Wikidata schon über 10 Mio. Items, mehr als jede Sprachausgabe von Wikipedia (momentan existieren 4,2 Mio. Einträge in der enlischsprachigen Wikipedia). Und obwohl Wikidata – genau wie Commons auch – hauptsächlich der Unterstützung von Wikipedia und ihren Schwesterprojekten dient, bietet es einen wesentlichen Mehrwert: Wikidata stellt maschinenlesbare, vernetzte Daten über Millionen von Themen in vielen Sprachen über eine Standard-Schnittstelle (API) bereit.

Von den bescheidenen Anfängen der Erforschung künstlicher Intelligenz über heutige Anwendungen wie Google Knowledge Graph und Wolfram Alpha bis hin zu zukünftigen Systemen wie „intelligenten“ User Agents oder (wer weiß?) der Singularität – ein derart strukturierter Datenbestand gilt schon lange als der „Heilige Gral“ der Computerwissenschaft.

Der Umfang einer solchen Datensammlung kann allerdings beängstigend sein. Während einige Unternehmen über genügend Mittel verfügen, um derartige Projekte zu finanzieren, haben andere Gruppen (wie etwa DBpedia) versucht, sich die in Wikipedia gespeicherten und frei zugänglichen Daten zunutze zu machen. Aber Wikidatas Mix aus Bearbeitungen von Menschen und Bots sorgt zusammen mit dem umfangreichen Wissensbestand von Wikipedia und einer Reihe innovativer Funktionen, wie z. B. mehrere Eigenschaftstypen, Quellenanmerkung und Qualifizierern, für einen Qualitätssprung im „Web of Knowledge“. Und mittlerweile gibt es einige Tools, die sich dieser Funktionen bedienen und das Potenzial des Web of „Knowledge“ erschließen. Eine relativ vollständige Liste dieser Tools gibt es hier.

Das Prinzip von Wikidata


Stammbaum von Johann Seabastian Bach

Für ein sehr anschauliches Beispiel für solch ein Tool schau dir Mozart an. Das Tool ermöglicht nicht nur eine bloße Erfassung und Darstellung der Daten, sondern es „versteht“, dass dieses Item eine Person ist, und fragt zusätzliche, personenspezifische Items wie etwa Verwandte ab. Darüber hinaus zeigt es personenspezifische Informationen, wie z. B. Normdaten, die sich nicht auf andere Items beziehen. Mozarts Kompositionen werden aufgelistet und können auf der Seite wiedergegeben werden, wenn sie als Datei in Commons vorliegen. Bis zu einem gewissen Grad können auch die Sprachinformationen in Wikidata genutzt werden, sodass dieselbe Seite (größtenteils) auf Deutsch aufgerufen werden kann.

Anstatt nur nach den direkten Verwandten zu suchen, kann ein Tool auch eine „Kette“ von bestimmten Eigenschaften zwischen Items verfolgen und einen „Item-Cluster“ – wie etwa einen Stammbaum (hübscher und umfangreicher Stammbaum von Mozart) – erzeugen. Der Stammbaum um John F. Kennedy herum enthält mehr als 10.000 Menschen. Auf ähnliche Weise kann ein Tool taxonomische Verbindungen zwischen Arten bis hin zu den Ursprüngen verfolgen und daraus einen vollständigen Lebensbaum (Achtung: riesige Seite!) erzeugen.

Diese Tools zeigen, dass Wikidata, obwohl es noch in den Kinderschuhen steckt, mit einem recht mäßigen Programmierungsaufwand komplexe Ergebnisse erzeugen kann. Eine futuristischere Demonstration der Möglichkeiten bietet das sprechende Wiri (Google Chrome empfohlen).

Dieses Item bearbeiten

Diejenigen, die bereits freiwillig an Wikimedia-Projekten mitgewirkt haben, wird es nicht überraschen, dass auch für Wikidata immer mehr Tools zum Editieren zur Verfügung stehen. Einige dieser Tools verfügen über eine Doppelfunktion zur Abfrage von Wikidata und Anzeige der Ergebnisse einerseits, und zum Aufzeigen noch ausstehender „To-dos“ andererseits. Bei einem Blick auf die Aufteilung der Genres von Fernsehserien auf Wikidata wird schnell erkennbar, dass weit mehr als die Hälfte überhaupt keinem Gerne zugewiesen ist. (Tipp: Klicke in dem Tortendiagramm auf ein Tortenstück, um die zugehörigen Items anzuzeigen. Kannst du Lost irgendeinem Genre zuordnen?).

Bei der Bearbeitung in Wikidata wird ein Item normalerweise durch Suche nach seinem Namen verlinkt. Schlechte Karten hat man aber, wenn man nach „John Taylor“ sucht, denn im Moment gibt es 52 Items mit dem Namen, aber ohne verwertbaren Beschreibungen dazu. Will man alle Items finden, die dasselbe Label verwenden, hilft der Terminator weiter. Dieses Tool stellt außerdem eine täglich aktualisierte Liste mit Items bereit, die denselben Titel, aber keine Beschreibung aufweisen.

Auf ähnliche Weise lassen sich Items nach Wikipedia-Kategorie suchen. Wer einen komplexeren Filter benötigt, sein eigenes Tool schreiben möchte oder nach einer Lösung zur Arbeitserleichterung sucht, kann ein Tool verwenden, das zum Beispiel Opern ohne Librettist findet (zur Änderung der Anfrage muss allerdings die URL bearbeitet werden).

Zusätzlich existieren viele Tools auf JavaScript-Basis, mit denen direkt in Wikidata gearbeitet werden kann. Ob man nun alle Sprachlinks oder die komplette Taxonomie aller Arten mit einem einzelnen Klick importieren, das gegenwärtige Item als weibliche Fußballspielerin aus Bosnien festlegen oder Eigenschaften eines Items auf alle Items in derselben Wikipedia-Kategorie übertragen möchte – für all diese Aufgaben stehen Tools zur Verfügung.

Und das ist erst der Anfang

Während die meisten dieser Tools zwar kaum mehr als Demos sind oder hauptsächlich Wikidata und seinen Editoren dienen, zeigen sie doch das außerordentliche Potenzial dieses Projekts. Es kann sein, dass auf Wikidata nicht sehr viel über den Erzherzog Ernst von Österreich zu erfahren ist, aber immerhin mehr als unter dem Eintrag in der englischsprachigen Wikipedia über ihn (der nämlich nicht existiert). Vielleicht reichen die Informationen aber aus, um einen Stub-Artikel zu schreiben. Und je mehr Daten hinzugefügt werden, je mehr Datentypen (Datum, Ort usw.) bereitgestellt werden und je effektiver sind die Möglichkeiten zur Abfrage von Wikidata, bin ich mir sicher, dass in naher Zukunft etliche und viel erstaunlichere Tools geschrieben werden – es sei denn, die Singularität schreibt sie für uns.