zurück

Daten für Alle!

WMDE allgemein

27. September 2013

In der ersten Session des ersten Wikimania präsentierte ich die Idee, Wikipedia mit strukturierten Daten anzureichern. Auf die Frage, wie lange es dauern würde das umzusetzen, antwortete ich: “Zwei Wochen, wenn man die MediaWiki-Software gut kennt.”

Das war 2005. Wie sich herausstellte lag ich leicht daneben.


Jetzt, im Jahr 2013, haben wir endlich angefangen strukturierte Daten aus Wikidata in den Wikipedien zu nutzen. Das Projekt ist noch in den Kinderschuhen, aber ich bin schon jetzt sehr stolz auf das Wikidata Team und was es erreicht hat. Ich bin den vielen, vielen Menschen, die uns geholfen haben dahin zu kommen wo wir heute sind, sehr dankbar (ich habe angefangen sie alle aufzuzählen, aber dieser Beitrag wurde zu lang). Es gibt noch viel zu tun, aber die grobe Skizze von dem was Wikidata ist und nicht ist ist gezogen worden und ich denke wir haben ein sehr interessantes neues Projekt angelegt. Ich bin sehr zuversichtlich für Wikidata und seine Zukunft, sonst würde ich nicht gehen.

Viele Menschen haben gewaltige Erwartungen an Wikidata. Es wird da viel Enttäuschungen geben: Wikidata ist kein Allheilmittel für alle Probleme und es ist nichts magisches. Aber ich habe auch bemerkt, dass mehr und mehr Menschen die Grenzen des Systems verstehen und zu schätzen wissen und innerhalb dieser Grenzen abrieten und Dinge erreichen, die fast magisch sind. Wikidata ist nirgendwo in der Nähe natürlicher Sprache wenn es um Expressivität geht, und wird es für eine lange Zeit sein. Aber mit Unterstützung für mehr Datentypen, für Abfragen, Wikimedia Commons und Wiktionary auf der Roadmap könnte Wikidata möglicherweise die weltweit wichtigste Sammlung von freien Wissens werden, und vielleicht sogar das Fundament für eine künstliche Intelligenz, an der jeder teilenhaben kann. Wir können die Entwicklung einer künstlichen Intelligenz entweder Unternehmen überlassen – oder wir können versuchen dies offen zu tun wo jeder in der Lage ist teilzuhaben. Und meiner Meinung nach ist der einzige Ort, den ich im Moment sehe, der dieser Aufgabe möglicherweise gewachsen ist ist die Wikimedia Bewegung.

Diese Woche hat Wikidata den Meilenstein von 20 Millionen Aussagen überschritten. Wir haben mehr als 750.000 Koordinaten und 250.000 Zeitpunkte. Wir haben erst begonnen die Möglichkeiten der Visualisierung dieser Daten oder die Integration mit externen Datensätze für eine noch reichere Erfahrung zu erforschen. Die tief verwurzelte Unterstützung für viele Sprachen bietet uns neue Datensätze, die in vielen unterschiedlichen Situationen verwendet werden können. Ich gehe davon aus, dass Referenzen für Aussagen zu einem wichtigen Input für NLP Training-Algorithmen werden. Wikidata wurde entwickelt, um zu ermöglichen und um zu neuen Algorithmen und Anwendungen zu führen, und wir haben bisher hier nur an der Oberfläche gekratzt.

Eine Visualisierung aller Daten in Wikidata, mit dem Jetzt in der Mitte. Der Ort eines Datenobjekts definiert seinen Winkel. Die Farbe wird durch die Art des Datenobjekts bestimmt. Zeit und Ort propagieren zu verknüpften Datenobjekten, denen diese Informationen fehlen.


Was ist meiner Meinung nach das größte Risiko für Wikidata?

Nicht verwendet zu werden.

Verwendet zu werden bedeutet, dass die Daten sichtbar werden. Fehler und Auslassungen werden auffällig und verlangen korrigiert zu werden. Verwendet zu werden stellt die Qualität der Daten sicher. Wenn eine App Daten tausend Anwendern zeigt, werden vielleicht fünfzig einen Fehler bemerken, und einer von ihnen wird vielleicht hingehen und ihn beheben. Und das ist genug – das ist das Schöne an einem zentralen Wissensspeicher.

Verwendet zu werden nimmt auch die Gefahr des Overengineerings der Ontologie. Ein Schwerpunkt auf dem Finden der “richtigen” Ontologie könnte eine Menge kostbare Zeit und Energie der Editoren kosten mit unklarem Nutzen. Die Nutzung der Daten lenkt die Vollständigkeit und Schema-Erstellung und Diskussionen auf einen viel klareren Weg. Anforderungen, die von Nutzung der Daten in Wikipedia und sekundär in externen Anwendungen kommen, bringen einen viel höheren Nutzen. Ein weiterer Vorteil, der zunehmend sichtbar werden wird, ist die Tatsache, dass Wikidata viel zugänglicher für Bot-gesteuertes “Daten Refactoring” ist als Wikipedia es je sein könnte.

Verwendet zu werden wird auch dazu führen, dass mehr Menschen Wikidata nutzen und beitreten wollen. Sei es die Nutzung von QIDs, Wikidata-Identifier, um zu einer zentralen, webbasierten Wissensbasis zu linken, sei es um eine kleine Anwendung oder Webseite intelligenter zu machen, sei es um völlig neuartigen Anwendungen zu erstellen: Je mehr Wikidata verwendet wird, desto mehr Augen sind auf ihm, direkt oder indirekt, desto mehr Energie wird für die Verbesserung und Aufrechterhaltung von Wikidata aufgebracht werden.

Ich bin überaus zufrieden mit dem Wachstum der Wikidata-Community. Ich sehe noch nicht den breiten Einsatz in der Datennutzung. Entscheidend wird sein, dies in Zukunft zu erhöhen – und ich habe keinen Zweifel daran, dass die Pläne für Wikidata dafür gut aufgestellt sind.


Was sind die größten Stärken von Wikidata?

Die Community. Das sagt alles. Sie ist einfach unglaublich. Unglaublich fantastisch. Mein tiefster Dank geht an die Community.

Die enge Integration mit Wikipedia und anderen Wikimedia-Projekten. Dies gab uns einen enormen Vorsprung gegenüber vergleichbaren Projekten und die positiven Effekte können nicht überschätzt werden. Ohne die unmittelbare Anbindung an Wikipedia, sei es durch die Sprachlinks, die verwendet wurden um eine Objektdatenbank zu erstellen, seien es die Infoboxen, die verwendet werden, um die Erstellung der Wisensbasis zu leiten, wäre eine Menge Energie verpufft. Und die Gruppe der Menschen die Zeit und Energie investieren wäre viel kleiner gewesen.

Die extreme Flexibilität des Wissensmodells und die solide Erdung seiner Semantik in Standards wie OWL. Wikidata an Wiki-Prinzipien zu binden und auf der MediaWiki-Software aufzubauen hat uns eine riesige Palette an getesteten, community-orientierten Werkzeugen und Grundsätzen gegeben. So viele Einschränkungen wie möglich von der Community durchsetzen zu lassen und nicht von der Software selbst ermöglichte ein Wachstum weit über die engen Grenzen der Phantasie des Entwickler.


Die Veröffentlichung dieser Beitrag ist meine letzte Aktion als Direktor des Wikidata Projekt. Es war eine tolle Zeit, und ich freue mich darauf, zu sehen, wie sich Wikidata entwickeln wird. Von nun an bin ich ein Mitglied der Community und ich bin gespannt zu sehen wie es weiter wächst.

  • Hi Denny!
    Die Visualisierung sieht wirklich klasse aus! Gibt es schon eine “offizielle” Stelle an der die “zeitlich – örtliche” Darstellung verwendet wird? Ich persönlich fände es toll wenn es ähnliche Darstellungen für bzw. in wikipedia geben würde!

    Kommentar von AndreasS am 20. Oktober 2013 um 13:45

  • Riccardo, ich hoffe, dass sich Wikidata noch vielmehr für diejenigen gelohnt hat, die noch keine eigene Wissensbasis zur Verfügung hatten. Visualisierungen wie diese http://tools.wmflabs.org/wikidata-todo/tempo_spatial_display.html?q=Q46083&title=The%20Franco-Prussian%20War&subtitle=Major%20battles sind ja nur möglich, weil es jetzt eine für alle offene und freie Wissensbasis gibt. Was Du behauptest, ist vergleichbar damit zu sagen, dass sich Wikipedia für den Brockhaus-Verlag gelohnt hat, oder Linux für AT&T. Jetzt hat jeder ein Lexikon, ein Betriebssystem, eine Wissensbasis!

    Wikidata hat zum Ziel, Wikipedia zu unterstützen, ihre Qualität zu erhöhen und dabei den dafür notwendigen Aufwand zu senken. Es gibt schon Belege dafür, dass das passiert: z.B. IMDB, GND oder VIAF-IDs können nun automatisch mehrfach geprüft werden, bestimmte Arten von Vandalismus und Fehler können einfacher und effizienter gefunden und korrigiert werden. Man denke nur an die Sprachlinks. Es gibt Hinweise dafür, dass kleinere Sprachversionen der Wikipedia von Wikidata profitieren, und mehr Wissen in ihrer Sprache anbieten können als zuvor. Hast Du aber im Gegenzug einen einzigen Beleg dafür, dass Wikidata für Wikipedia einen Rückschritt bedeutet?

    Aus meinen bisherigen Beiträgen in diesem Blog sollte erkennbar sein, dass ich keiner einfachen Datengläubigkeit unterliege. Meine Nachfolgerin bei Wikidata hat mit Sicherheit eine ähnlich vorsichtige Einstellung dazu. Aber beide erkennen wir, dass es viele Möglichkeiten gibt, Wikipedia und die anderen Wikimedia-Projekte mit Hilfe einer Wissensbasis wie Wikidata zu unterstützen. Wir arbeiten daran, eine Infrastruktur zu errichten, die der Community erlaubt, effizienter und effektiver Wissen allen Menschen zur Verfügung zu stellen.

    Kommentar von Denny Vrandecic am 2. Oktober 2013 um 17:03

  • Wikidata hat sich für Google gelohnt. Eine Art Freebase 2.0, erstellt und teilweise sogar finanziert von der Community. Für Wikipedia (ein Lexikon!) ist die Entwicklung leider in die falsche Richtung gegangen. Daten, Daten, Daten über alles, völlig sinnfrei und “unschuldig”. Im Glauben an das Semantic Web wurde blind alles zusammengewürfelt, meist ohne Quellenangabe. Für Google ist es egal, ob die Angaben stimmen (viele Daten = viele Werbekunden), für eine Lexikon, das wissenschaftlichen Ansprüchen genügen möchte (und, falls jemand noch weiß, was ist das, sogar ethischen), ist die Datenhalde ein Rückschritt.

    Was ist die größte Gefahr für WD? In dem Punkt kann ich Danny zustimmen: Nicht benutzt werden. Bots haben Millionen von Angaben von WP nach WD geschaufelt – und dort verstauben sie jetzt.

    Kommentar von Riccardo am 30. September 2013 um 16:29

  • Sehe es genau wie Du. Und danke für Deine Arbeit bei Wikidata. Dass wir jetzt so etwas haben, ist ein wirklich tolles Ergebnis. Die finanzielle Seite des Projekts dürfte imho der entscheidende Faktor gewesen sein, damit das ganze überhaupt angepackt wurde.

    Kommentar von Goldzahn am 30. September 2013 um 12:34

Hinterlasse einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert