Archiv für die ‘Technisches’ Kategorie



Wikidata quality and quantity

One of the goals of the Wikidata development project is a community that is strong enough to maintain the content in Wikidata. The community is – as with all other Wikimedia projects – the only guarantee of quality and sustainability.

None of the objectives of the Wikidata development project is to be the largest collection of data on the net. The sheer number of statements in Wikidata is not a metric that is indicative of healthy growth or quality. Since it is an easy to get and understandable number it is nontheless used a lot, but we should not attach too much importance to it.

This leads to the question, which metrics are meaningful for quality in Wikidata? And I have to admit: we do not know. This may seem particularly ironic since my dissertation was on the topic of quality measurement of knowledge structures. But it is not surprising: the opportunity to make statements in Wikidata exists since about half a year. The site is in continuous development, and some important pieces for quality assurance that are planned for Wikidata are not yet developed – including, for example, ranks for statements, web links as a data type, the protection of individual statements and aggregated views of the data. How to make quality measurable in Wikidata, which metrics correlate with quality – it has simply not yet been investigated sufficiently. I expect that science will provide some answers in the coming months and years.

To get an overview of the development of Wikidata, we must temporarily take assumptions about what numbers likely indicate quality. I do hereby call the community to make suggestions and discuss. A few first thoughts below.

The number of data elements (items) seems to not be a useful measure. This number is so far almost exclusively characterized in that items are required for the storage of language links. Accordingly, there was initially strong growth, while the links were transferred, and in recent months, the number is relatively stable.

The number of edits per page seems to be more meaningful. Last week it went above 5.0 and is rising quickly. The number of edits alone in Wikidata is less meaningful than in many other Wikimedia projects as an extraordinarily high proportion of the edits are done by bots. Bots are programs written by users to automatically or semi-automatically make changes. The bots are controlled by a group of about 80 users. This leads many to the idea that Wikidata is only written by bots. But that’s not true: every month 600000-1 million edits are performed by human user. These are numbers that can be reached only by the most active Wikipedias – including their own bot edits. Worries about Wkidata’s growth being too fast and that the quality of the data would suffer, have so far, except for anecdotes, not proven true.

Perhaps the simplest metric is the number of active users. Active users in Wikimedia projects are defined as the users who contributed at least five edits in a given month. Wikidata has nearly 4,000 active users, making it rank 6th among the most active of the Wikimedia projects together with the Japanese and Russian Wikipedia behind only the English Wikipedia, Commons, the German, French and Spanish Wikipedia. In other words, Wikidata has more active users than 100 smaller Wikipedias combined! Whenever the smaller Wikipedias access Wikidata, they rely on a knowledge base that is maintained by a much larger community than their own Wikipedia. But the advantages don’t end there: by using the content of Wikidata in the Wikipedias it becomes more visible, gets more attention, and errors are more likely to be found (although we still lack the technical means to then correct the error easily from Wikipedia – but that is on the development plan). This mainly benefits the smaller Wikipedias.

But it also already has useful advantages for the larger Wikipedias: An exciting – and for me completely unexpected – opportunity for quality assurance came when the English Wikipedia decided not to simply take IMDB IDs from Wikidata but instead load them from Wikidata to compare them with the existing numbers in Wikipedia, and in the case of inconsistency to add a hidden category to the article. This way difficult to detect errors and easily vandalisable data got an additional safety net: it may well be that you have a typo in the number on the English Wikipedia, or some especially funny person switched the ID for Hannah Montana’s latest film with that ofNatural Born Killers in the French Wikipedia – but now these situations are detected quickly and automatically. This data that is validated in several ways can then be used by the smaller Wikipedias with little concern.

As mentioned earlier, a lot is still missing and Wikidata is a very young project. Many of the statements in Wikidata are without a source. Even in the German Wikipedia the statement, Paris is the capital of France, does not have a source. We impose much stricter rules on a much smaller project after such a short time? But, then one may interject, if a statement has no source, I can not use it in my Wikipedia. And that is perfectly okay: it is already possible now, to just use data from Wikidata if they have a source of a certain type.

There are two ways to ensure the long term quality of Wikipedia: Allow user to be more effective or attract more users. We should continue to pursue both ways and Wikidata uses both ways very effectively: the mechanisms described above aim to give users the means to make more powerful tools and processes to build quality assurance, simultaneously Wikidata has already brought more than 1300 new users to the Wikimedia projects who had not edited in the other Wikimedia projects before.

Wikidatas main goal is to support the Wikimedia projects: it should enable higher quality of the content and reduce the effort required for the same. We need more metrics that capture this goal, and show how we evolve. The simple metrics all indicate that the initial growth in width has come to an end after months, and that the project is gaining in depth and quality. There are useful applications both for small as well as for large projects. But it is also clear that I am an avid supporter of Wikidata and so have a bias, and therefore start a call for ideas to track Wikidata’s effect critically and accurately.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (2 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

Wikidata Qualität und Quantität

Eines der Ziele des Wikidata-Entwicklungsprojektes ist eine Community, die stark genug ist, die Inhalte in Wikidata zu pflegen. Die Community ist – wie für alle anderen Wikimedia-Projekte auch – der einzige Garant für Qualität und Nachhaltigkeit.

Keines der Ziele des Wikidata-Entwicklungsprojektes ist es, die größte Sammlung von Daten im Netz zu werden. Die schiere Anzahl der Aussagen in Wikidata ist keine Metrik, die auf gesunden Wachstum oder Qualität schließen lässt. Da sie eine leicht berechenbare und verständliche Zahl ist, wird sie dennoch gerne genannt, aber wir sollten ihr nicht zuviel Bedeutung beimessen.

Das führt zu der Frage, welche Metriken denn aussagekräftig für Qualität in Wikidata sind? Und da muss ich zugestehen: wir wissen es nicht. Das mag besonders ironisch erscheinen, da meine Dissertation das Thema Qualitätsmessung von Wissensstrukturen hatte. Aber es ist nicht überraschend: die Möglichkeit, Aussagen in Wikidata zu machen, gibt es seit etwa einem halben Jahr. Die Seite ist in stetiger Entwicklung, und manche Herzstücke der Qualitätssicherung wie sie in Wikidata geplant sind, sind noch nicht entwickelt – dazu gehören zum Beispiel Ränge für Aussagen, Weblinks als Datentyp, der Schutz einzelner Aussagen und aggregierte Sichten auf die Daten. Wie man Qualität in Wikidata messbar macht, welche Metriken mit Qualität korrelieren – es wurde schlicht noch nicht hinreichend untersucht. Ich setze hier sehr darauf, dass in den kommenden Monaten und Jahren die Wissenschaft ein paar Antworten liefern wird.

Um überhaupt einen Überblick über die Entwicklung Wikidatas zu haben, müssen wir vorläufig Annahmen darüber treffen, welche Zahlen wahrscheinlich auf Qualität hinweisen. Ich will hiermit auch die Community aufrufen, Vorschläge zu machen und zu diskutieren. Ein paar erste Gedanken diskutiere ich im Folgenden.

Die Anzahl der Datenelemente (Items) scheint kein brauchbares Maß. Diese Zahl ist bislang fast ausschließlich dadurch gegeben, dass die Items für das Speichern von Sprachenlinks notwendig sind. Entsprechend gab es zunächst ein starkes Wachstum, während die Links übertragen wurden, und seit einigen Monaten ist die Zahl relativ stabil.

Deutlich aussagekräftiger scheint die Zahl der Bearbeitungen pro Seite zu sein. Die hat letzte Woche 5,0 überschritten, und steigt recht schnell. Die Zahl der Bearbeitungen alleine ist in Wikidata weniger aussagekräftig als in vielen anderen Wikimediaprojekten, da ein außerordentlich hoher Anteil der Bearbeitungen von Bots erledigt wird. Bots sind Programme, von Benutzern geschrieben, die automatisch oder halb-automatisch Änderungen vornehmen. Die Bots werden von einer Gruppe von etwa 80 Benutzern gesteuert. Das führt bei vielen Beobachtern zu dem Gedanken, dass Wikidata nur von Bots geschrieben wird. Aber das stimmt nicht: jedem Monat werden zwischen 600,000 und 1 Million Bearbeitungen durch menschliche Benutzer durchgeführt. Das sind Zahlen, die nur von den aktivsten Wikipedien erreicht werden – inklusive ihre eigenen Botbearbeitungen. Warnrufe darüber, dass Wikidatas Wachstum viel zu schnell sei und die Qualität der Daten auf der Strecke bliebe, wurden bislang, außer durch Anekdoten, nicht belegt.

Die vielleicht einfachste Metrik ist die Zahl der aktiven Benutzer. Aktive Benutzer werden in Wikimediaprojekten definiert als die Benutzer, die zumindest fünf Bearbeitungen im Monat beitrugen. Wikidata hat knapp 4000 aktive Benutzer, und ist damit mit der Japanischen und Russischen Wikipedia auf Rang 6 der aktivsten Wikimediaprojekte, nur hinter der Englischen Wikipedia, Commons, der Deutschen, Französischen und Spanischen Wikipedia. Oder anders gesagt: Wikidata hat mehr aktive Benutzer als 100 kleinere Wikipedien zusammengezählt! Wann auch immer die kleineren Wikipedien auf Wikidata zugreifen, greifen sie auf eine Wissensbasis zurück, die von einer deutlich größeren Community gewartet wird als ihre eigene Wikipedia. Aber damit erschöpft sich der Vorteil noch nicht: durch das Darstellen der Inhalte von Wikidata in den Wikipedien werden die Inhalte sichtbarer, erhalten mehr Aufmerksamkeit, und Fehler werden wahrscheinlicher gefunden (auch wenn es noch an der technischen Möglichkeit fehlt, die Fehler dann auch leicht aus der Wikipedia heraus zu korrigieren – aber auch das steht im Entwicklungsplan). Das nutzt vor allem den kleineren Wikipedien.

Aber auch die größeren Wikipedien haben jetzt schon handfeste Vorteile: eine spannende – und für mich vollkommen unterwartete – Möglichkeit zur Qualitätssicherung ergab sich, als die Englische Wikipedia entschloss, IMDB IDs nicht einfach aus Wikidata zu übernehmen, sondern vielmehr aus Wikidata zu laden, mit den vorhandenen Zahlen in Wikipedia zu vergleichen, und im Fall einer Inkonsistenz den Artikel mit einer versteckten Kategorie zu versehen. Dadurch könne gerade schwer zu entdeckende Fehler und leicht vandalisierbare Daten mit einem mehrfachen Sicherheitsnetz versehen werden: es kann ja sein, dass man einen Zahlendreher in der Englischen Wikipedia hat, oder das ein Spaßvogel in der Französischen Wikipedia die ID für Hanna Montanas neuesten Film mit der von Natural Born Killers vertauscht – aber nun werden solche Situationen schnell und automatisch erkannt. Diese mehrfach validierten Daten können dann auch mit wenig Bedenken von den kleineren Wikipedien genutzt werden.

Wie anfangs erwähnt, vieles fehlt noch, und Wikidata ist ein sehr junges Projekt. Viele der Aussagen in Wikidata stehen ohne Quelle da. Auch in der Deutschen Wikipedia hat die Aussage, Paris sei die Hauptstadt Frankreichs, keine Quelle. Verlangen wir von einem viel kleineren Projekt strengere Regeln nach so kurzer Zeit? Aber, mag man dann einwerfen, wenn eine Aussage keine Quelle hat, kann ich sie in meiner Wikipedia nicht verwenden. Und das ist vollkommen in Ordnung: es ist jetzt bereits möglich, Daten aus Wikidata nur zu übernehmen, wenn sie eine Quelle einer bestimmten Art haben.

Es gibt zwei Möglichkeiten, die Qualität der Wikipedien langfristig zu sichern: Benutzer effektiver werden lassen oder mehr Benutzer gewinnen. Beide Wege sollten wir weiterhin verfolgen, und Wikidata verfolgt beide Wege sehr effektiv: die oben beschriebenen Mechanismen zielen daraufhin, den Benutzern die Mittel zu geben, mächtigere Werkzeuge und Prozesse zur Qualitätssicherung aufbauen zu lassen, gleichzeitig hat Wikidata bereits mehr als 1300 neue Benutzer zu den Wikimediaprojekten geführt, die bislang nicht in den anderen Wikimediaprojekten editierten.

Wikidatas Hauptziel ist die Wikimediaprojekte zu unterstützen: es soll eine höhere Qualität der Inhalte ermöglichen und gleichzeitig den dafür benötigten Aufwand senken. Wir brauchen mehr Metriken, die dieses Ziel erfassen, und die zeigen, wie wir uns dahingehend entwickeln. Die einfachen Metriken deuten alle darauf hin, dass der anfängliche Wachstum in der Breite seit Monaten zu einem Abschluss gekommen ist, und dass das Projekt in Tiefe und Qualität gewinnt. Es gibt nützliche Anwendungen sowohl für die kleinen wie auch für die großen Projekte. Aber es ist auch klar, dass ich ein eifriger Verfechter Wikidatas bin, damit einen Bias habe, und deswegen einen Aufruf starte, nach Möglichkeiten, Wikidatas Effekt kritisch und genau verfolgen zu können.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (1 Bewertungen, Durchschnitt: 1,00 von 5)
Loading...

Wikidata und andere Technik auf der Wikimania

Denny, Lydia und Daniel (von Fabrice Florin, CC-by-sa 2.0)

Ich bin zurück von einer großartigen Wikimania. Zunächst einmal vielen Dank an alle, die geholfen haben die Veranstaltung zu organisieren. Es war sehr gut organisiert und eine nützliche und produktive Veranstaltung. Ich war dort, um alles rund um Wikidata sowie neue Technik wie den VisualEditor und Flow und ihre Auswirkungen auf die deutschsprachige Wikipedia zu diskutieren.

Ich hatte den Eindruck, dass Wikidata und der Visual Editor in aller Munde waren während dieser Wikimania. Egal zu welchem Vortrag, welcher Diskussionsrunde oder welchem Abendessen ich ging – jedes einzelne von ihnen hatte Wikidata und den VisualEditor zum in irgendeiner Form zum Thema. Es ist großartig zu sehen wie die Wikimedia-Gemeinschaft Wikidata in seine Reihen aufnimmt. Und der VisualEditor – auch wenn noch unfertig – scheint auch sehr schnell zu diesem Punkt zu kommen.
Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (2 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

Wikidata and other technical bits at Wikimania

Denny, Lydia and Daniel (by Fabrice Florin, CC-by-sa 2.0)

I’m back from an amazing Wikimania. First of all thank you to everyone who helped make the event happen. It was very well organized and an overall useful and productive event. I was there to discuss everything Wikidata as well as new technology like the Visual Editor and Flow and how they affect the German language Wikipedia.

It felt like Wikidata and the Visual Editor were on everyone’s mind during this Wikimania. No matter which talk or panel or dinner I went to – every single one of them mentioned Wikidata and the Visual Editor in some way. It’s great to see the Wikimedia community embrace Wikidata as its sister project. And the VisualEditor – while still rough – it seems is getting to that point very quickly too.
Weiterlesen »

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (5 Bewertungen, Durchschnitt: 4,80 von 5)
Loading...

Großspende für Wikidata

Heute hält Denny Vrandecic vom Wikidata-Team einen Vortrag auf der Semantic Technology and Business Conference in San Francisco. Dabei kann er neben den vielen inhaltlichen Punkten, die das Team in der ganzen Welt vor Datenenthusiasten präsentiert, auch auf großartige finanzielle Unterstützung verweisen: Das Wikidata-Team und Wikimedia Deutschland freuen sich, eine Großespende über 150.000 Euro durch den Suchmaschinenbetreiber Yandex verkünden zu können. Mit diesen zusätzlichen Mitteln können Kernfunktionen des Projekts weiterentwickelt werden. Details sowie Kommentare von Denny und Pavel Richter sind in unserer Pressemitteilung zur Spende nachzulesen.

Yandex wurde 1997 gegründet und betreibt heute die meistgenutzte Suchmaschine Russlands. Das Unternehmen gehört zu den fünf größten Anbietern weltweit und ist mit seinen Angeboten auch in der Ukraine, Kasachstan, Weißrussland und der Türkei vertreten. Über die Motivation für das Engagement von Yandex sagt Alexander Shubin, verantwortlich für Web-Standards:

Es ist eine ambitionierte Aufgabe, Objekte der realen Welt und die Beziehungen zwischen ihnen verstehen zu wollen. Für Forscher ergeben sich zahlreiche Hürden dabei. Eine davon ist es, dass eine vollständige und hochwertige Datenbank verfügbar sein muss, die solche Objekte und ihre Eigenschaften und Beziehungen enthält. Niemand kann so etwas allein erstellen. Dafür ist ein gemeinschaftlicher Ansatz nötig, mit der Unterstützung tausender Menschen. Deshalb freuen wir uns, Wikidata unterstützen zu können – denn das Projekt ist ein gemeinschaftlicher und offener Versuch, genau so eine Datenbank zu schaffen.

Die Spende ist keinem festen Zweck innerhalb des Wikidata-Projekts zugewiesen, sondern vergrößert die Möglichkeiten für das Entwickler-Team, die anstehenden Aufgaben zu bewältigen. Hier im Vereinsblog gibt es unter http://blog.wikimedia.de/tag/wikidata/ alle Neuigkeiten und Berichte der letzten Wochen zum nachlesen.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (5 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

Von Wahrheiten und Lügen

Dies ist der zweite in einer kurzen Serie von Blogeinträgen, in denen ich einige der Design-Entscheidungen hinter Wikidata erkläre. Der erste Blogeintrag beleuchtete die Einschränkung von Eigenschaften und ihren Werten. Diese Essays stellen meine persönliche Meinung dar, und sollten nicht als offizielle Stellungnahme des Wikidata-Projekts verstanden werden.

Datenbanken haben eine Aura der Richtigkeit. Wenn wir eine Abfrage an eine Datenbank stellen, erwarten wir, dass das Ergebnis, das zurück kommt, im Grunde Die Antwort und Die Wahrheit ist. Frag Amazons Datenbank nach dem Autor der Bibel. Frag IMDB nach dem Regisseur von Adaption. Du erwartest nicht eine mögliche Antwort, oder verschiedene Blickwinkel – du erwartest eine definitive Antwort.

Wikidata sammelt strukturierte Daten über die Welt. Es ist im Grunde eine crowdgesourcte Datenbank. Im Gegensatz zu Text, fehlt strukturierten Daten notwendigerweise und leider Nuance. Während es möglich ist, über die Staatlichkeit des Kosovo in einer NPOV-weise in natürlicher Sprache zu sprechen, würde ein naiver Ansatz das in strukturierten Daten darzustellen scheitern: Entweder sagen wir Kosovo ist ein Staat oder wir tun es nicht. Es gibt keine Grautöne.

Glücklicherweise liegen einige der Wurzeln von Wikidata in einem EU-Forschungsprojekt namens RENDER. Das Ziel dieses Projekts ist es die Vielfalt des Wissens im Web zu erforschen und zu unterstützen. Render verwirft die Annahme einer einfachen, einzigen Wahrheit – und dies wurde vom Wikidata Datenmodell geerbt. Statt Fakten zu sammeln, sammeln wir Aussagen. Wir definieren Aussagen als Behauptungen die Referenzen haben. Eine Referenz belegt die Behauptung. Ein schönes Beispiel ist Ethanol bei dem die CAS Nummer – eine Standard-Kennung für chemische Verbindungen – angegeben ist mir einer Referenz auf die Quelle inklusive der entsprechenden Seitenzahl.

Im Gegensatz zu vielen anderen Datenbanken kann Wikidata widersprüchliche Aussagen enthalten die von verschiedenen Referenzen unterstützt werden. Im Gegensatz zum natürlichen Text in Wikipedia, bietet Wikidata nicht die Möglichkeit, diese Unterschiede in Einklang zu bringen und in Prosa zu erklären um den verschiedenen Blickwinkeln das ihnen zustehende Gewicht zu verleihen. Die Verantwortung liegt beim Leser und Weiterverwender von Wikidata zu entscheiden welchen Quellen er vertraut. Ich gehe davon aus, dass es in den nächsten Jahren ziemlich viel Forschung und Untersuchungen zu dieser Frage geben wird. Die ersten Nachnutzer, die sich mit diesen Fragen befassen sind die Wikipedia Communities, die sich entscheiden Daten aus Wikidata zu verwenden.

In den nächsten Wochen und Monaten werden wir noch ein paar weitere Features hinzufügen, die die Vielfalt der Aussagen in Wikidata unterstützen.

Derzeit ist der naheliegendste Mängel das Fehlen von Datentypen um Zahlen, Text und URLs angeben. Nur mit diesen Datentypen wird es möglich sein Referenzen in ihrer vollen Pracht zu nutzen. Eine weitere Möglichkeit – sobald URLs zur Verfügung stehen – wäre Content Locators für Text in HTML-Seiten durch XPath, oxPath, CSS-Selektoren oder ähnliches zur Verfügung zu stellen, sodass Bots überprüfen können, ob die angegebenen Referenzen noch gültig sind. Ich bin sehr gespannt, wie sich die Verwendung von Referenzen und Quellen in und um Wikidata entwickelt.

Ein weiteres wichtiges Feature, das im Laufe dieses Jahres eingeführt wird, ist die Möglichkeit, Aussagen einen Rang zuzuweisen: nicht alle Aussagen sollen als gleichwertig betrachtet werden. Wir werden drei Ränge einführen und jede Aussage wird in einem von ihnen sein: bevorzugt, normal und überholt.

„Bevorzugte“ Aussagen sollten die aktuellsten und am weitesten akzeptierten Aussagen sein. Es kann mehrere bevorzugte Aussagen für das gleiche Objekt und Eigenschaft geben.

„Überholte“ Aussagen sind die, die aus irgendeinem Grund als nicht zuverlässig angesehen werden. Sie werden aber erwähnt, weil sie eine solide Quelle haben die sie unterstützen oder weil sie aus irgendeinem Grund weit verbreitet aber eigentlich nicht mehr akzeptiert sind. Beispiele können Tippfehler in einflussreichen Lehrbücher sein — zum Beispiel zum Eisengehalt von Spinat, oder der Länge des Rheins – – oder Zahlen, die durch irgendeine Form von Propaganda verbreitet wurden und heute nicht mehr als korrekt angesehen werden.

„Normale“ Aussagen sind also die, die übrig bleiben, also weder „bevorzugt“ noch „überholt“ sind. Dies wird oft für historische Aussagen (die Bevölkerung von Rom in der Zeit von Julius Caesar, ehemalige Hauptstädte von Russland, etc.) gelten.

Technisch werden wir zuerst nur bevorzugte Aussagen für die Beantwortung von Anfragen verwenden (dh, wenn du nach allen Hauptstädten mit einer Bevölkerung von weniger als 500.000 fragen, dann wirst du keine Resultate erhalten bei denen die Stadt eine Bevölkerung von 120.000 im 16. Jahrhundert hatte). Außerdem werden nur diese von der Eigenschaften-Parserfunktion zurückgegeben werden. Die Lua-Schnittstelle hat Zugang zu allen Aussagen und bieten damit volle Flexibilität. Es ist geplant die Abfragemöglichkeiten später zu erweitern um komplexere Abfragen zuzulassen, an welchem ​​Punkt wir uns über die Einbeziehung der anderen Ränge Gedanken machen müssen.

Die Ränge sollten offenere Regeln in Wikidata ermöglichen, sodass eine breitere Vielfalt von Wissen abgedeckt werden kann.

Um eine Vorstellung vom Zeitplan zu geben: Wir werden zunächst die noch fehlenden Datentypen implementieren, und dann, als Voraussetzung für Ränge, die Möglichkeit Aussagen zu ordnen. Danach werden Ränge das nächste verfügbare Feature in Wikidata sein.

Ränge führen einen neuen Vektor in die Debatte ein, den es in Wikidata bisher noch nicht gibt. Die Frage verschiebt sich von „sollte diese Aussage aufgenommen werden?“ zu „was soll der Rang dieser Aussage sein?“ Dies scheint ein notwendiger Schritt zu sein: Im Gegensatz zu natürlichem Text, könnte Wikidata sonst keine Aussagen aufnehmen, bei denen man sich geeinigt hat, dass sie falsch sind aber einen historischen oder anderen Wert haben. Dies macht es umso wichtiger, sich daran zu erinnern, dass es bei Wikidata nicht um die Wahrheit geht, sondern um das Sammeln belegter Aussagen in einer sekundären Datenbank. Das Kriterium für die Aufnahme sollte nicht Wahrhaftigkeit sondern Überprüfbarkeit sein – eine Politik, die Wikipedia sehr gut gediehnt hat.

Wikidata wird immer – und das ist sowohl eine Notwendigkeit als auch im Design anerkannt – weniger können als Wikipedia in vielen Aspekten. Wikipediaartikel können kausale und informellen Verbindungen beleuchten, sie können Neugier wecken und sie können eine der wichtigsten Formen des Wissenstransfers zwischen Menschen unterstützen: Geschichtenerzählen. Wikidata hat andere, einzigartige Vorteile: Es kann einige Grunddaten über ein Thema von Interesse in vielen Sprachen leichter zur Verfügung stellen, und es stellt die Daten in einer Weise bereit, die für Bots und Apps viel leichter zugänglich ist. Es könnte ein Schritt in Richtung Entlastung einiger Wikipedien von einer Menge Bot-erstellter Artikel sein, die nie von einem menschlichen Editor berührt wurden, die letzten Änderungen fluten und Statistiken verzerren.

Ohne die Fähigkeit, eine Vielzahl von Aussagen zu einem Objekt zum Ausdruck zu bringen – auch wenn sie nur von einigen als Wahrheiten und von anderen als Lügen angesehen werden – würde Wikidata einer der wichtigsten Säulen der Wikipedia nicht gerecht werden: dem Neutral Point of View und der Möglichkeit gegensätzlichen Standpunkte zu integrieren.

Ich hoffe, dass die technische Plattform, die wir als Entwickler bauen, und die Regeln und Verfahren der Communities in Wikidata, den Wikipedien und andere Wikimedia-Projekten ein nützliches Ökosystem schaffen, mit dem Verständnis der Grenzen der einzelnen Projekte und dem Willen zu entdecken, wie wir einander am effektivsten helfen können. Und das bedeutet, die eigenartige Beziehung zwischen Wikidata und Der Wahrheit zu verstehen.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (10 Bewertungen, Durchschnitt: 4,80 von 5)
Loading...

On truths and lies

(Die deutsche Version dieses Artikels ist hier.)

This is the second in a short series of blog entries in which I explain some of the design decisions behind Wikidata. The first one was about restricting property values or properties. The essays represent my personal opinion, and are not to be understood as the official opinion of the Wikidata project.

Databases have an aura of correctness. When we query a database, we expect the result that comes back to basically be The Answer and The Truth. Ask Amazon’s database about the author of the Bible. Ask IMDB about the director of Adaptation. You are not expecting to get a possible answer, or different points of view – you expect one definitive answer.

Wikidata is collecting structured data about the world. It is basically a crowdsourced database. Unlike text, structured data necessarily and unfortunately lacks in nuance. Whereas it is possible to talk about the statehood of Kosovo in an NPOV way in natural language, a naive approach to represent that in structured data would fail: either we say Kosovo is a state, or we do not. There are no shades of grey.

Fortunately some of the roots of Wikidata lie in an EU research project called RENDER. The goal of this project is to explore and support the diversity of knowledge on the Web. RENDER discards the assumption of a simple, single truth – and this was inherited by the Wikidata data model. Instead of collecting facts, we collect statements. We define statements as claims that can have references. A reference supports the claim. A beautiful example is for example Ethanol, where the CAS number – a standard identifier for chemical compounds – is given with a reference to the actual standard, pointing out the page in the source.

Unlike many other databases, Wikidata can contain contradicting statements, supported by different references. Unlike the natural text in Wikipedia, Wikidata does not offer the possibility to reconcile and explain the differences in prose, providing due weight to the different points of view. The responsibility lies with the Wikidata reader and reuser to deal with deciding which sources to trust. I expect quite a bit of research and exploration to deal with this question in the following years. The first reusers to deal with these issues will be the Wikipedia communities that opt to choose data from Wikidata.

In the next few weeks and months we will add a few more features to support the diversity of statements in Wikidata.

Currently, the most obvious omission is a lack of datatypes to specify numbers, text and URLs. Only with these datatypes it will be possible to actually write down references in their full glory. Another opportunity – once URLs are available – would be to provide content locators for text in HTML pages through XPath, oxPath, CSS selectors, or something similar, thus enabling bots to check if the given references are still valid. I am very curious to see how the usage of references and sources will develop in and around Wikidata.

Another major feature that will be introduced in the course of this year is the possibility to rank statements: not all statements are to be regarded equally. We will introduce three ranks, and every statement will be in one of them: preferred, normal, and deprecated.

“Preferred” statements should be the most current and most widely accepted statements. There can be several preferred statements for the same item and property.

“Deprecated” statements are those that are considered to be not reliable for some reason. They are mentioned though because they might have a strong source supporting it, or they are widely spread for some reason, but actually not accepted anymore. Examples can include typos from influential textbooks – for example regarding the iron content of spinach, or the length of the Rhine – or numbers spread by some form of propaganda that are considered not correct today anymore.

“Normal” statements are thus the ones left, which are neither “preferred” nor “deprecated”. This will often apply for historic statements (the population of Rome in the time of Julius Caesar, former capitals of Russia, etc.).

Technically, we will start with using only preferred statements for answering queries (i.e. when you ask for all capitals with a population of less than 500,000, then you won’t get answers where the city had a population of 120,000 in the 16th century). Also only they will be returned by the property-parserfunction. The Lua interface will have access to all statements and thus provide full flexibility. It is planned to extend query answering later to support more complex queries, at which point we will have to think about integrating other ranks.

The ranks should allow for a more inclusive policy in Wikidata, allowing to reflect a wider diversity of knowledge.

To give an idea of the time scale: we will first implement the datatypes that are still missing, and then, as a prerequisite for ranks, the possibility to reorder statements. After that, ranks will be the next feature to land in Wikidata.

Ranks introduce a vector for debate, which has not been there in Wikidata yet. The question moves from “should this statement be included?” to “what should be the rank of this statement?” This seems like a necessary step: unlike natural text, Wikidata otherwise could not include statements that are agreed on to be bogus but that have historical or other value. This makes it even more important to remember that Wikidata is not about truth, but about collecting referenced statements in a secondary database. The criterion for inclusion should not be veracity, but verifiability – a policy that has served Wikipedia very well.

Wikidata will always – and that is both a necessity as well as acknowledged by design – run short of Wikipedia in many aspects. Wikipedia articles can explore causal and informal connections, they can inspire curiosity, and they can support one of the major modes of knowledge transfer between humans: storytelling. Wikidata has other, unique advantages: it can provide some ground data about a topic of interest in many languages more easily, and it provides the data in a way that is much more accessible for bots and apps. It could be a step towards relieving some Wikipedias from a lot of bot-created articles, never touched by a human editor, cluttering recent changes, and skewed statistics.

Without the ability to express a plurality of statements about an item – even if they are considered truths only by some and lies by others – Wikidata would fall short of one of the major pillars of Wikipedia, the Neutral Point of View and the possibility of integrating conflicting points of view.

I hope that the technical platform that we as developers are building, and the rules and processes of the communities in Wikidata, the Wikipedias, and other Wikimedia projects, are establishing a useful ecosystem, understanding the limitations of each project, and discovering how we can most effectively help each other. And this means understanding the peculiar relationship between Wikidata and the Truth.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (2 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

Die Tool-Umgebung von Wikidata

Der folgende Beitrag ist ein Gastbeitrag von Magnus Manske, aktiver Toolentwickler rund um Wikidata und Autor der Software aus der später MediaWiki wurde.

Wikidata ist das jüngste Kind der Wikimedia-Familie und dient hauptsächlich als „Commons für Faktoide“, also als zentrales Archiv für die Schlüsseldaten der Wikipedia-Themen sowie für die Links zwischen den zahlreichen Sprachausgaben. Derzeitig umfasst Wikidata schon über 10 Mio. Items, mehr als jede Sprachausgabe von Wikipedia (momentan existieren 4,2 Mio. Einträge in der enlischsprachigen Wikipedia). Und obwohl Wikidata – genau wie Commons auch – hauptsächlich der Unterstützung von Wikipedia und ihren Schwesterprojekten dient, bietet es einen wesentlichen Mehrwert: Wikidata stellt maschinenlesbare, vernetzte Daten über Millionen von Themen in vielen Sprachen über eine Standard-Schnittstelle (API) bereit.

Von den bescheidenen Anfängen der Erforschung künstlicher Intelligenz über heutige Anwendungen wie Google Knowledge Graph und Wolfram Alpha bis hin zu zukünftigen Systemen wie „intelligenten“ User Agents oder (wer weiß?) der Singularität – ein derart strukturierter Datenbestand gilt schon lange als der „Heilige Gral“ der Computerwissenschaft.

Der Umfang einer solchen Datensammlung kann allerdings beängstigend sein. Während einige Unternehmen über genügend Mittel verfügen, um derartige Projekte zu finanzieren, haben andere Gruppen (wie etwa DBpedia) versucht, sich die in Wikipedia gespeicherten und frei zugänglichen Daten zunutze zu machen. Aber Wikidatas Mix aus Bearbeitungen von Menschen und Bots sorgt zusammen mit dem umfangreichen Wissensbestand von Wikipedia und einer Reihe innovativer Funktionen, wie z. B. mehrere Eigenschaftstypen, Quellenanmerkung und Qualifizierern, für einen Qualitätssprung im „Web of Knowledge“. Und mittlerweile gibt es einige Tools, die sich dieser Funktionen bedienen und das Potenzial des Web of „Knowledge“ erschließen. Eine relativ vollständige Liste dieser Tools gibt es hier.

Das Prinzip von Wikidata


Stammbaum von Johann Seabastian Bach

Für ein sehr anschauliches Beispiel für solch ein Tool schau dir Mozart an. Das Tool ermöglicht nicht nur eine bloße Erfassung und Darstellung der Daten, sondern es „versteht“, dass dieses Item eine Person ist, und fragt zusätzliche, personenspezifische Items wie etwa Verwandte ab. Darüber hinaus zeigt es personenspezifische Informationen, wie z. B. Normdaten, die sich nicht auf andere Items beziehen. Mozarts Kompositionen werden aufgelistet und können auf der Seite wiedergegeben werden, wenn sie als Datei in Commons vorliegen. Bis zu einem gewissen Grad können auch die Sprachinformationen in Wikidata genutzt werden, sodass dieselbe Seite (größtenteils) auf Deutsch aufgerufen werden kann.

Anstatt nur nach den direkten Verwandten zu suchen, kann ein Tool auch eine „Kette“ von bestimmten Eigenschaften zwischen Items verfolgen und einen „Item-Cluster“ – wie etwa einen Stammbaum (hübscher und umfangreicher Stammbaum von Mozart) – erzeugen. Der Stammbaum um John F. Kennedy herum enthält mehr als 10.000 Menschen. Auf ähnliche Weise kann ein Tool taxonomische Verbindungen zwischen Arten bis hin zu den Ursprüngen verfolgen und daraus einen vollständigen Lebensbaum (Achtung: riesige Seite!) erzeugen.

Diese Tools zeigen, dass Wikidata, obwohl es noch in den Kinderschuhen steckt, mit einem recht mäßigen Programmierungsaufwand komplexe Ergebnisse erzeugen kann. Eine futuristischere Demonstration der Möglichkeiten bietet das sprechende Wiri (Google Chrome empfohlen).

Dieses Item bearbeiten

Diejenigen, die bereits freiwillig an Wikimedia-Projekten mitgewirkt haben, wird es nicht überraschen, dass auch für Wikidata immer mehr Tools zum Editieren zur Verfügung stehen. Einige dieser Tools verfügen über eine Doppelfunktion zur Abfrage von Wikidata und Anzeige der Ergebnisse einerseits, und zum Aufzeigen noch ausstehender „To-dos“ andererseits. Bei einem Blick auf die Aufteilung der Genres von Fernsehserien auf Wikidata wird schnell erkennbar, dass weit mehr als die Hälfte überhaupt keinem Gerne zugewiesen ist. (Tipp: Klicke in dem Tortendiagramm auf ein Tortenstück, um die zugehörigen Items anzuzeigen. Kannst du Lost irgendeinem Genre zuordnen?).

Bei der Bearbeitung in Wikidata wird ein Item normalerweise durch Suche nach seinem Namen verlinkt. Schlechte Karten hat man aber, wenn man nach „John Taylor“ sucht, denn im Moment gibt es 52 Items mit dem Namen, aber ohne verwertbaren Beschreibungen dazu. Will man alle Items finden, die dasselbe Label verwenden, hilft der Terminator weiter. Dieses Tool stellt außerdem eine täglich aktualisierte Liste mit Items bereit, die denselben Titel, aber keine Beschreibung aufweisen.

Auf ähnliche Weise lassen sich Items nach Wikipedia-Kategorie suchen. Wer einen komplexeren Filter benötigt, sein eigenes Tool schreiben möchte oder nach einer Lösung zur Arbeitserleichterung sucht, kann ein Tool verwenden, das zum Beispiel Opern ohne Librettist findet (zur Änderung der Anfrage muss allerdings die URL bearbeitet werden).

Zusätzlich existieren viele Tools auf JavaScript-Basis, mit denen direkt in Wikidata gearbeitet werden kann. Ob man nun alle Sprachlinks oder die komplette Taxonomie aller Arten mit einem einzelnen Klick importieren, das gegenwärtige Item als weibliche Fußballspielerin aus Bosnien festlegen oder Eigenschaften eines Items auf alle Items in derselben Wikipedia-Kategorie übertragen möchte – für all diese Aufgaben stehen Tools zur Verfügung.

Und das ist erst der Anfang

Während die meisten dieser Tools zwar kaum mehr als Demos sind oder hauptsächlich Wikidata und seinen Editoren dienen, zeigen sie doch das außerordentliche Potenzial dieses Projekts. Es kann sein, dass auf Wikidata nicht sehr viel über den Erzherzog Ernst von Österreich zu erfahren ist, aber immerhin mehr als unter dem Eintrag in der englischsprachigen Wikipedia über ihn (der nämlich nicht existiert). Vielleicht reichen die Informationen aber aus, um einen Stub-Artikel zu schreiben. Und je mehr Daten hinzugefügt werden, je mehr Datentypen (Datum, Ort usw.) bereitgestellt werden und je effektiver sind die Möglichkeiten zur Abfrage von Wikidata, bin ich mir sicher, dass in naher Zukunft etliche und viel erstaunlichere Tools geschrieben werden – es sei denn, die Singularität schreibt sie für uns.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (6 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

The Wikidata tool ecosystem

(Die deutsche Version dieses Artikels ist hier.)

The following is a guest post by Magnus Manske, active tool developer around Wikidata and author of the software that later evolved into MediaWiki.

Wikidata is the youngest child of the Wikimedia family. Its main purpose is to serve as a „Commons for factoids“, a central repository for key data about the topics on, and links between, the hundreds of language editions of Wikipedia. At time of writing, Wikidata already contains about 10 million items, more than any edition of Wikipedia (English Wikipedia currently has 4.2 million entries). But while, as with Commons, its central purpose is to serve Wikipedia and its sister projects, Wikidata has significant value beyond that; namely, it offers machine-readable, interlinked data about millions of topics in many languages via a standardized interface (API).

Such a structured data repository has long been a „holy grail“ in computer science, since the humble beginnings of research into artificial intelligence, to current applications like Google’s Knowledge Graph and Wolfram Alpha, and towards future systems like „intelligent“ user agents or (who knows?) the Singularity.

The scale of any such data collection is a daunting one, and while some companies can afford to pour money into it, other groups, such as DBpedia, have tried to harvest the free-form data stored in Wikipedia. However, Wikidata’s mixture of human and bot editing, the knowledge of Wikipedia as a resource, and evolving features such as multiple property types, source annotation, and qualifiers add a new quality to the web of knowledge, and several tools have already sprung up to take advantage of these, and to demonstrate its potential. A fairly complete list is available.

Views on Wikidata


Family tree of Johann Seabastian Bach

For a straight-forward example of such a tool, have a look at Mozart. This tool does not merely pull and display data about an item; it „understands“ that this item is a person, and queries additional, person-specific items, such as relatives. It also shows person-specific information that does not refer to other items, such as Authority Control data. Mozart’s compositions are listed, and can be played right on the page, if a file exists on Commons. To a degree, it can also use the language information in Wikidata, so you can request the same page in German (mostly).

Instead of looking only for direct relatives, a tool can also follow a „chain“ of certain properties between items, and retrieve an „item cluster“, such as a genealogical tree (pretty and heavy-duty tree for Mozart). The Wikidata family tree around John F. Kennedy contains over 10.000 people at time of writing. In similar fashion, a tool can follow taxonomic connections between species up to their taxonomic roots, and generate an entire tree of life (warning: huge page!).

These tools demonstrate that even in its early stages, Wikidata allows to generate complex results with a fairly moderate amount of programming involved. For a more futuristic demo, talk to Wiri (Google Chrome recommended).

Edit this item

Unsurprisingly to anyone who has volunteered on Wikimedia projects before, tools to help with editing are also emerging. Some have the dual function of interrogating Wikidata and displaying results, while at the same time informing about „things to do“. If you look at the genre of television series on Wikidata, you will notice that over half of them have no genre assigned. (Hint: Click on the „piece of pie“ in the pie chart to see the items. Can you assign a genre to Lost?).

When editing Wikidata, one usually links to an item by looking for its name. Bad luck if you look for „John Taylor“, for there are currently 52 items with that name but no discerning description. If you want to find all items that use the same term, try the Terminator; it also has (daily updated) lists with items that have the same title but no description.

Similarly, you can look for items by Wikipedia category. If you want some more complex filter, or want to write your own tool and look for something to ease your workload, there is a tool that can find, say, Operas without a librettist (you will need to edit the URL to change the query, though).

There are also many JavaScript-based tools that work directly on Wikidata. A single click to import all language links or species taxonomy from Wikipedia, find authority control data, declare the current item to be a female football player from Bosnia, or apply the properties of the current item to all items in the same Wikipedia category — tools for all of these exist.

This is only the beginning

While most of these tools are little more than demos, or primarily serve Wikidata and its editors, they nicely showcase the potential of the project. There might not be much you can learn about Archduke Ernest of Austria from Wikidata, but it is more than you would get on English Wikipedia (no article). It might be enough information to write a stub article. And with more statements being added, more property types (dates, locations) emerging, and more powerful ways to query Wikidata, I am certain we will see many, and even more amazing tools being written in the near future. Unless the Singularity writes them for us.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (3 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

Wikidata auf der ganzen Welt

Die Möglichkeit Daten von Wikidata in ihren Artikeln einzubinden haben 11 Wikipedien bereits seit einem Monat. Vorgestern kam noch die englischsprachige Wikipedia hinzu. Heute kommen alle 274 verbleibenden hinzu. Hinweise zur Nutzung finden sich im letzten Blogeintrag. Hier gibt es Antworten auf die häufigsten Fragen.

Das ist ein großer Schritt für Wikidata und gleichzeitig ein weiterer Anfang. Es ist ein großer Schritt weil ab sofort alle Wikipedien in der Lage sind Daten gemeinsam zu sammeln, zu pflegen und zu nutzen. So kann zum Beispiel in jeder Wikipedia zu einem Film dessen ID in der Internet Movie Database abgefragt werden und in einem Artikel genutzt werden sobald sie jemand in Wikidata hinterlegt hat. Gleichzeitig ist es allerdings auch ein weiterer Anfang, da noch viel getan werden muss. Die Abfrage muss vereinfacht werden. Mehr Daten müssen in Wikidata eingetragen (und wo nötig übersetzt) werden. Es müssen mehr Belege eingefügt werden. Es müssen weitere Datentypen verfügbar gemacht werden wie zum Beispiel Geokoordinaten und Zeit. Deine Hilfe und dein Feedback ist dabei sehr willkommen und wichtig.

Wir freuen uns auf die nächsten Schritte!

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (1 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...