zurück

Die Tool-Umgebung von Wikidata

Lydia Pintscher

6. Mai 2013

Der folgende Beitrag ist ein Gastbeitrag von Magnus Manske, aktiver Toolentwickler rund um Wikidata und Autor der Software aus der später MediaWiki wurde.

Wikidata ist das jüngste Kind der Wikimedia-Familie und dient hauptsächlich als „Commons für Faktoide“, also als zentrales Archiv für die Schlüsseldaten der Wikipedia-Themen sowie für die Links zwischen den zahlreichen Sprachausgaben. Derzeitig umfasst Wikidata schon über 10 Mio. Items, mehr als jede Sprachausgabe von Wikipedia (momentan existieren 4,2 Mio. Einträge in der enlischsprachigen Wikipedia). Und obwohl Wikidata – genau wie Commons auch – hauptsächlich der Unterstützung von Wikipedia und ihren Schwesterprojekten dient, bietet es einen wesentlichen Mehrwert: Wikidata stellt maschinenlesbare, vernetzte Daten über Millionen von Themen in vielen Sprachen über eine Standard-Schnittstelle (API) bereit.

Von den bescheidenen Anfängen der Erforschung künstlicher Intelligenz über heutige Anwendungen wie Google Knowledge Graph und Wolfram Alpha bis hin zu zukünftigen Systemen wie „intelligenten“ User Agents oder (wer weiß?) der Singularität – ein derart strukturierter Datenbestand gilt schon lange als der „Heilige Gral“ der Computerwissenschaft.

Der Umfang einer solchen Datensammlung kann allerdings beängstigend sein. Während einige Unternehmen über genügend Mittel verfügen, um derartige Projekte zu finanzieren, haben andere Gruppen (wie etwa DBpedia) versucht, sich die in Wikipedia gespeicherten und frei zugänglichen Daten zunutze zu machen. Aber Wikidatas Mix aus Bearbeitungen von Menschen und Bots sorgt zusammen mit dem umfangreichen Wissensbestand von Wikipedia und einer Reihe innovativer Funktionen, wie z. B. mehrere Eigenschaftstypen, Quellenanmerkung und Qualifizierern, für einen Qualitätssprung im „Web of Knowledge“. Und mittlerweile gibt es einige Tools, die sich dieser Funktionen bedienen und das Potenzial des Web of „Knowledge“ erschließen. Eine relativ vollständige Liste dieser Tools gibt es hier.

Das Prinzip von Wikidata

Stammbaum von Johann Seabastian Bach

Für ein sehr anschauliches Beispiel für solch ein Tool schau dir Mozart an. Das Tool ermöglicht nicht nur eine bloße Erfassung und Darstellung der Daten, sondern es „versteht“, dass dieses Item eine Person ist, und fragt zusätzliche, personenspezifische Items wie etwa Verwandte ab. Darüber hinaus zeigt es personenspezifische Informationen, wie z. B. Normdaten, die sich nicht auf andere Items beziehen. Mozarts Kompositionen werden aufgelistet und können auf der Seite wiedergegeben werden, wenn sie als Datei in Commons vorliegen. Bis zu einem gewissen Grad können auch die Sprachinformationen in Wikidata genutzt werden, sodass dieselbe Seite (größtenteils) auf Deutsch aufgerufen werden kann.

Anstatt nur nach den direkten Verwandten zu suchen, kann ein Tool auch eine „Kette“ von bestimmten Eigenschaften zwischen Items verfolgen und einen „Item-Cluster“ – wie etwa einen Stammbaum (hübscher und umfangreicher Stammbaum von Mozart) – erzeugen. Der Stammbaum um John F. Kennedy herum enthält mehr als 10.000 Menschen. Auf ähnliche Weise kann ein Tool taxonomische Verbindungen zwischen Arten bis hin zu den Ursprüngen verfolgen und daraus einen vollständigen Lebensbaum (Achtung: riesige Seite!) erzeugen.

Diese Tools zeigen, dass Wikidata, obwohl es noch in den Kinderschuhen steckt, mit einem recht mäßigen Programmierungsaufwand komplexe Ergebnisse erzeugen kann. Eine futuristischere Demonstration der Möglichkeiten bietet das sprechende Wiri (Google Chrome empfohlen).

Dieses Item bearbeiten

Diejenigen, die bereits freiwillig an Wikimedia-Projekten mitgewirkt haben, wird es nicht überraschen, dass auch für Wikidata immer mehr Tools zum Editieren zur Verfügung stehen. Einige dieser Tools verfügen über eine Doppelfunktion zur Abfrage von Wikidata und Anzeige der Ergebnisse einerseits, und zum Aufzeigen noch ausstehender „To-dos“ andererseits. Bei einem Blick auf die Aufteilung der Genres von Fernsehserien auf Wikidata wird schnell erkennbar, dass weit mehr als die Hälfte überhaupt keinem Gerne zugewiesen ist. (Tipp: Klicke in dem Tortendiagramm auf ein Tortenstück, um die zugehörigen Items anzuzeigen. Kannst du Lost irgendeinem Genre zuordnen?).

Bei der Bearbeitung in Wikidata wird ein Item normalerweise durch Suche nach seinem Namen verlinkt. Schlechte Karten hat man aber, wenn man nach „John Taylor“ sucht, denn im Moment gibt es 52 Items mit dem Namen, aber ohne verwertbaren Beschreibungen dazu. Will man alle Items finden, die dasselbe Label verwenden, hilft der Terminator weiter. Dieses Tool stellt außerdem eine täglich aktualisierte Liste mit Items bereit, die denselben Titel, aber keine Beschreibung aufweisen.

Auf ähnliche Weise lassen sich Items nach Wikipedia-Kategorie suchen. Wer einen komplexeren Filter benötigt, sein eigenes Tool schreiben möchte oder nach einer Lösung zur Arbeitserleichterung sucht, kann ein Tool verwenden, das zum Beispiel Opern ohne Librettist findet (zur Änderung der Anfrage muss allerdings die URL bearbeitet werden).

Zusätzlich existieren viele Tools auf JavaScript-Basis, mit denen direkt in Wikidata gearbeitet werden kann. Ob man nun alle Sprachlinks oder die komplette Taxonomie aller Arten mit einem einzelnen Klick importieren, das gegenwärtige Item als weibliche Fußballspielerin aus Bosnien festlegen oder Eigenschaften eines Items auf alle Items in derselben Wikipedia-Kategorie übertragen möchte – für all diese Aufgaben stehen Tools zur Verfügung.

Und das ist erst der Anfang

Während die meisten dieser Tools zwar kaum mehr als Demos sind oder hauptsächlich Wikidata und seinen Editoren dienen, zeigen sie doch das außerordentliche Potenzial dieses Projekts. Es kann sein, dass auf Wikidata nicht sehr viel über den Erzherzog Ernst von Österreich zu erfahren ist, aber immerhin mehr als unter dem Eintrag in der englischsprachigen Wikipedia über ihn (der nämlich nicht existiert). Vielleicht reichen die Informationen aber aus, um einen Stub-Artikel zu schreiben. Und je mehr Daten hinzugefügt werden, je mehr Datentypen (Datum, Ort usw.) bereitgestellt werden und je effektiver sind die Möglichkeiten zur Abfrage von Wikidata, bin ich mir sicher, dass in naher Zukunft etliche und viel erstaunlichere Tools geschrieben werden – es sei denn, die Singularität schreibt sie für uns.

Kommentare

  1. […] anzugeben. Magnus Manske hat über die Werkzeuge, die bereits rund um Wikidata entstanden sind, gebloggt. In den nächsten drei Monaten wird das Team von 3 “Google Summer of Code”-Studenten […]

  2. Gerrit
    13. Mai 2013 um 17:51 Uhr

    Oha, hier die von WordPress verschluckten Links:

    [1] http://de.wikipedia.org/wiki/Hype-Zyklus
    [2] http://blog.cebit.de/2012/08/21/der-gartner-hype-cycle-fur-neue-technologien

  3. Gerrit
    13. Mai 2013 um 17:50 Uhr

    Hallo Ralf und Lydia,

    durchläuft Wikidata einen Hype-Zyklus?[1]
    Falls ja, an welcher Stelle steht Wikidata eurer Meinung nach?
    Falls ja, wie lange wird Wikidata brauchen, bis das “Plateau der Produktivität” erreicht wird? Eher 2-5 oder eher 10 Jahre?[2]

    Welche Indikatoren eignen sich, neben Wachstum und Umfang, für die Einschätzung von Wikidatas Erfolg und Reife? Spielen Annahme/Ablehnung durch die WP-Community eine Rolle? Oder ist Wikidata (Team + Plattform + Community) an sich wertvoll? Auf die letzte Frage würde ich mit “Ja” antworten, aber das ist nur eine Meinung. :)

    Viele Grüße
    Gerrit


    [1]
    [2]

  4. Magnus
    13. Mai 2013 um 16:47 Uhr

    @ Hubertl Guckst Du vielleicht auf Wikidata die deutsche Version an? Das Äquivalent auf Reasonator wäre:
    http://toolserver.org/~magnus/ts2/reasonator/?q=Q5593&lang=de
    oder für Wikidata auf Englisch:
    http://www.wikidata.org/wiki/Q5593?uselang=en

    Die Unterschrift kannst Du mit P109 als Commons-Bild eintragen:
    http://www.wikidata.org/wiki/Property:P109

  5. Hubertl
    11. Mai 2013 um 07:17 Uhr

    eines verwirrt mich. Ich habe nach dem Mozart-Muster von Magnus Pablo Picasso aufgerufen

    http://toolserver.org/~magnus/ts2/reasonator/?q=Q5593

    und habe andere Daten gefunden als hier. (der lange Geburtsname)

    http://www.wikidata.org/wiki/Q5593

    Dann wollte ich testweise – wie bei Mozart – eine Signatur eintragen – bin gescheitert. Ich finde diese Möglichkeit nicht, obwohl sie mit Sicherheit vorhanden ist.

  6. Lydia Pintscher
    10. Mai 2013 um 17:32 Uhr

    Natürlich sind die Daten kein Artikel. Aber sie können jemandem der den Artikel schreiben will zukünftig die Arbeit erleichtern. Natürlich muss weitere Literatur hinzugezogen werden und vieles mehr getan.
    Und das Ziel ist es ja das Qualitätsniveau zu steigern. Das ist aktuell besonderns für eine so große Wikipedia wie die deutschsprachige noch nicht gegeben. Aber dafür ist das Projekt auch noch viel zu jung – genauso wie Wikipedia am Anfang nicht das Niveau hatte, das sie heute hat. Wäre es nicht toll wenn in 2 oder 3 Jahren viele weitere Wikipedien auf den Niveau der deutschsprachigen wären was zum Beispiel Quellen angeht?

  7. Ralf Liebau
    10. Mai 2013 um 17:21 Uhr

    Leider wieder ein sehr euphorischer Artikel über Wikidata. Die Aufforderung über [[Ernst von Österreich (1824–1899)]] einen englischsprachigen Artikel anhand der Datenfragmente von Wikidata zu schreiben, weist den falschen Weg. Die niederländische (und andere) Sprachversionen werden derzeit mit Datenstubs zugemüllt und es wird deutlich – Daten sind kein Wissen! Wer einen Artikel zum Erherzog schreiben will (bitte gern) sollte egal in welcher Sprachversion Literatur verwenden. Wikidata ist bislang ersteinmal ein Werkzeug, das die Gefahr birgt, das Qualitätsniveau zu senken. Unterm Strich bleibt die Frage, wieviel Problem Wikidata löst und wieviel erst durch Wikidata geschaffen werden.

  8. Lydia Pintscher
    7. Mai 2013 um 12:55 Uhr

    Habe die gleiche Frage hier beantwortet: https://blog.wikimedia.de/2013/05/06/the-wikidata-tool-ecosystem

  9. Hannes
    6. Mai 2013 um 19:11 Uhr

    “Archduke Ernest of Austria from Wikidata” is no good starting point for a stub. The information has no reliable sources as required by every Wikipedia project. It provides neither context nor meaning. For techies this doesn’t matter quite ofter, after all a bot could create an article with this data and a lot of Wikidata activists would call it an “article”. But there is no editorial content. When does Wikidata finally start to provide reliable data from external sources?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert