Wikidata Qualität und Quantität

Eines der Ziele des Wikidata-Entwicklungsprojektes ist eine Community, die stark genug ist, die Inhalte in Wikidata zu pflegen. Die Community …

  • Denny Vrandecic
  • 3. September 2013

Eines der Ziele des Wikidata-Entwicklungsprojektes ist eine Community, die stark genug ist, die Inhalte in Wikidata zu pflegen. Die Community ist – wie für alle anderen Wikimedia-Projekte auch – der einzige Garant für Qualität und Nachhaltigkeit.

Keines der Ziele des Wikidata-Entwicklungsprojektes ist es, die größte Sammlung von Daten im Netz zu werden. Die schiere Anzahl der Aussagen in Wikidata ist keine Metrik, die auf gesunden Wachstum oder Qualität schließen lässt. Da sie eine leicht berechenbare und verständliche Zahl ist, wird sie dennoch gerne genannt, aber wir sollten ihr nicht zuviel Bedeutung beimessen.

Das führt zu der Frage, welche Metriken denn aussagekräftig für Qualität in Wikidata sind? Und da muss ich zugestehen: wir wissen es nicht. Das mag besonders ironisch erscheinen, da meine Dissertation das Thema Qualitätsmessung von Wissensstrukturen hatte. Aber es ist nicht überraschend: die Möglichkeit, Aussagen in Wikidata zu machen, gibt es seit etwa einem halben Jahr. Die Seite ist in stetiger Entwicklung, und manche Herzstücke der Qualitätssicherung wie sie in Wikidata geplant sind, sind noch nicht entwickelt – dazu gehören zum Beispiel Ränge für Aussagen, Weblinks als Datentyp, der Schutz einzelner Aussagen und aggregierte Sichten auf die Daten. Wie man Qualität in Wikidata messbar macht, welche Metriken mit Qualität korrelieren – es wurde schlicht noch nicht hinreichend untersucht. Ich setze hier sehr darauf, dass in den kommenden Monaten und Jahren die Wissenschaft ein paar Antworten liefern wird.

Um überhaupt einen Überblick über die Entwicklung Wikidatas zu haben, müssen wir vorläufig Annahmen darüber treffen, welche Zahlen wahrscheinlich auf Qualität hinweisen. Ich will hiermit auch die Community aufrufen, Vorschläge zu machen und zu diskutieren. Ein paar erste Gedanken diskutiere ich im Folgenden.

Die Anzahl der Datenelemente (Items) scheint kein brauchbares Maß. Diese Zahl ist bislang fast ausschließlich dadurch gegeben, dass die Items für das Speichern von Sprachenlinks notwendig sind. Entsprechend gab es zunächst ein starkes Wachstum, während die Links übertragen wurden, und seit einigen Monaten ist die Zahl relativ stabil.

Deutlich aussagekräftiger scheint die Zahl der Bearbeitungen pro Seite zu sein. Die hat letzte Woche 5,0 überschritten, und steigt recht schnell. Die Zahl der Bearbeitungen alleine ist in Wikidata weniger aussagekräftig als in vielen anderen Wikimediaprojekten, da ein außerordentlich hoher Anteil der Bearbeitungen von Bots erledigt wird. Bots sind Programme, von Benutzern geschrieben, die automatisch oder halb-automatisch Änderungen vornehmen. Die Bots werden von einer Gruppe von etwa 80 Benutzern gesteuert. Das führt bei vielen Beobachtern zu dem Gedanken, dass Wikidata nur von Bots geschrieben wird. Aber das stimmt nicht: jedem Monat werden zwischen 600,000 und 1 Million Bearbeitungen durch menschliche Benutzer durchgeführt. Das sind Zahlen, die nur von den aktivsten Wikipedien erreicht werden – inklusive ihre eigenen Botbearbeitungen. Warnrufe darüber, dass Wikidatas Wachstum viel zu schnell sei und die Qualität der Daten auf der Strecke bliebe, wurden bislang, außer durch Anekdoten, nicht belegt.

Die vielleicht einfachste Metrik ist die Zahl der aktiven Benutzer. Aktive Benutzer werden in Wikimediaprojekten definiert als die Benutzer, die zumindest fünf Bearbeitungen im Monat beitrugen. Wikidata hat knapp 4000 aktive Benutzer, und ist damit mit der Japanischen und Russischen Wikipedia auf Rang 6 der aktivsten Wikimediaprojekte, nur hinter der Englischen Wikipedia, Commons, der Deutschen, Französischen und Spanischen Wikipedia. Oder anders gesagt: Wikidata hat mehr aktive Benutzer als 100 kleinere Wikipedien zusammengezählt! Wann auch immer die kleineren Wikipedien auf Wikidata zugreifen, greifen sie auf eine Wissensbasis zurück, die von einer deutlich größeren Community gewartet wird als ihre eigene Wikipedia. Aber damit erschöpft sich der Vorteil noch nicht: durch das Darstellen der Inhalte von Wikidata in den Wikipedien werden die Inhalte sichtbarer, erhalten mehr Aufmerksamkeit, und Fehler werden wahrscheinlicher gefunden (auch wenn es noch an der technischen Möglichkeit fehlt, die Fehler dann auch leicht aus der Wikipedia heraus zu korrigieren – aber auch das steht im Entwicklungsplan). Das nutzt vor allem den kleineren Wikipedien.

Aber auch die größeren Wikipedien haben jetzt schon handfeste Vorteile: eine spannende – und für mich vollkommen unterwartete – Möglichkeit zur Qualitätssicherung ergab sich, als die Englische Wikipedia entschloss, IMDB IDs nicht einfach aus Wikidata zu übernehmen, sondern vielmehr aus Wikidata zu laden, mit den vorhandenen Zahlen in Wikipedia zu vergleichen, und im Fall einer Inkonsistenz den Artikel mit einer versteckten Kategorie zu versehen. Dadurch könne gerade schwer zu entdeckende Fehler und leicht vandalisierbare Daten mit einem mehrfachen Sicherheitsnetz versehen werden: es kann ja sein, dass man einen Zahlendreher in der Englischen Wikipedia hat, oder das ein Spaßvogel in der Französischen Wikipedia die ID für Hanna Montanas neuesten Film mit der von Natural Born Killers vertauscht – aber nun werden solche Situationen schnell und automatisch erkannt. Diese mehrfach validierten Daten können dann auch mit wenig Bedenken von den kleineren Wikipedien genutzt werden.

Wie anfangs erwähnt, vieles fehlt noch, und Wikidata ist ein sehr junges Projekt. Viele der Aussagen in Wikidata stehen ohne Quelle da. Auch in der Deutschen Wikipedia hat die Aussage, Paris sei die Hauptstadt Frankreichs, keine Quelle. Verlangen wir von einem viel kleineren Projekt strengere Regeln nach so kurzer Zeit? Aber, mag man dann einwerfen, wenn eine Aussage keine Quelle hat, kann ich sie in meiner Wikipedia nicht verwenden. Und das ist vollkommen in Ordnung: es ist jetzt bereits möglich, Daten aus Wikidata nur zu übernehmen, wenn sie eine Quelle einer bestimmten Art haben.

Es gibt zwei Möglichkeiten, die Qualität der Wikipedien langfristig zu sichern: Benutzer effektiver werden lassen oder mehr Benutzer gewinnen. Beide Wege sollten wir weiterhin verfolgen, und Wikidata verfolgt beide Wege sehr effektiv: die oben beschriebenen Mechanismen zielen daraufhin, den Benutzern die Mittel zu geben, mächtigere Werkzeuge und Prozesse zur Qualitätssicherung aufbauen zu lassen, gleichzeitig hat Wikidata bereits mehr als 1300 neue Benutzer zu den Wikimediaprojekten geführt, die bislang nicht in den anderen Wikimediaprojekten editierten.

Wikidatas Hauptziel ist die Wikimediaprojekte zu unterstützen: es soll eine höhere Qualität der Inhalte ermöglichen und gleichzeitig den dafür benötigten Aufwand senken. Wir brauchen mehr Metriken, die dieses Ziel erfassen, und die zeigen, wie wir uns dahingehend entwickeln. Die einfachen Metriken deuten alle darauf hin, dass der anfängliche Wachstum in der Breite seit Monaten zu einem Abschluss gekommen ist, und dass das Projekt in Tiefe und Qualität gewinnt. Es gibt nützliche Anwendungen sowohl für die kleinen wie auch für die großen Projekte. Aber es ist auch klar, dass ich ein eifriger Verfechter Wikidatas bin, damit einen Bias habe, und deswegen einen Aufruf starte, nach Möglichkeiten, Wikidatas Effekt kritisch und genau verfolgen zu können.

  1. Schöner Beitrag. Was mir aber zum Thema „… leicht vandalisierbare Daten …“ einfällt: Der in diesem Zusammenhang wichtigste Bug ist https://bugzilla.wikimedia.org/show_bug.cgi?id=44874

    Jeder Wikipedianer, der die erweiterte Beobachtungsliste verwendet, so wie ich, bekommt von Wikidata-Änderungen NICHTS mit. Und das ist schlecht :-(

    Kommentar von Raimond Spekking am 3. September 2013 um 14:10

  2. Raimond, danke. Wir arbeiten daran – der Recent Changes code ist leider nicht der einfachste, und statt das ganze noch draufzusetzen, wurde er etwas refactored und verbessert. Dadurch dauert es etwas länger, aber wir kommen dahin!

    Kommentar von Denny Vrandecic am 3. September 2013 um 14:12

Die Kommentare sind geschlossen.