Dies ist der zweite in einer kurzen Serie von Blogeinträgen, in denen ich einige der Design-Entscheidungen hinter Wikidata erkläre. Der erste Blogeintrag beleuchtete die Einschränkung von Eigenschaften und ihren Werten. Diese Essays stellen meine persönliche Meinung dar, und sollten nicht als offizielle Stellungnahme des Wikidata-Projekts verstanden werden.

Datenbanken haben eine Aura der Richtigkeit. Wenn wir eine Abfrage an eine Datenbank stellen, erwarten wir, dass das Ergebnis, das zurück kommt, im Grunde Die Antwort und Die Wahrheit ist. Frag Amazons Datenbank nach dem Autor der Bibel. Frag IMDB nach dem Regisseur von Adaption. Du erwartest nicht eine mögliche Antwort, oder verschiedene Blickwinkel – du erwartest eine definitive Antwort.

Wikidata sammelt strukturierte Daten über die Welt. Es ist im Grunde eine crowdgesourcte Datenbank. Im Gegensatz zu Text, fehlt strukturierten Daten notwendigerweise und leider Nuance. Während es möglich ist, über die Staatlichkeit des Kosovo in einer NPOV-weise in natürlicher Sprache zu sprechen, würde ein naiver Ansatz das in strukturierten Daten darzustellen scheitern: Entweder sagen wir Kosovo ist ein Staat oder wir tun es nicht. Es gibt keine Grautöne.

Glücklicherweise liegen einige der Wurzeln von Wikidata in einem EU-Forschungsprojekt namens RENDER. Das Ziel dieses Projekts ist es die Vielfalt des Wissens im Web zu erforschen und zu unterstützen. Render verwirft die Annahme einer einfachen, einzigen Wahrheit – und dies wurde vom Wikidata Datenmodell geerbt. Statt Fakten zu sammeln, sammeln wir Aussagen. Wir definieren Aussagen als Behauptungen die Referenzen haben. Eine Referenz belegt die Behauptung. Ein schönes Beispiel ist Ethanol bei dem die CAS Nummer – eine Standard-Kennung für chemische Verbindungen – angegeben ist mir einer Referenz auf die Quelle inklusive der entsprechenden Seitenzahl.

Im Gegensatz zu vielen anderen Datenbanken kann Wikidata widersprüchliche Aussagen enthalten die von verschiedenen Referenzen unterstützt werden. Im Gegensatz zum natürlichen Text in Wikipedia, bietet Wikidata nicht die Möglichkeit, diese Unterschiede in Einklang zu bringen und in Prosa zu erklären um den verschiedenen Blickwinkeln das ihnen zustehende Gewicht zu verleihen. Die Verantwortung liegt beim Leser und Weiterverwender von Wikidata zu entscheiden welchen Quellen er vertraut. Ich gehe davon aus, dass es in den nächsten Jahren ziemlich viel Forschung und Untersuchungen zu dieser Frage geben wird. Die ersten Nachnutzer, die sich mit diesen Fragen befassen sind die Wikipedia Communities, die sich entscheiden Daten aus Wikidata zu verwenden.

In den nächsten Wochen und Monaten werden wir noch ein paar weitere Features hinzufügen, die die Vielfalt der Aussagen in Wikidata unterstützen.

Derzeit ist der naheliegendste Mängel das Fehlen von Datentypen um Zahlen, Text und URLs angeben. Nur mit diesen Datentypen wird es möglich sein Referenzen in ihrer vollen Pracht zu nutzen. Eine weitere Möglichkeit – sobald URLs zur Verfügung stehen – wäre Content Locators für Text in HTML-Seiten durch XPath, oxPath, CSS-Selektoren oder ähnliches zur Verfügung zu stellen, sodass Bots überprüfen können, ob die angegebenen Referenzen noch gültig sind. Ich bin sehr gespannt, wie sich die Verwendung von Referenzen und Quellen in und um Wikidata entwickelt.

Ein weiteres wichtiges Feature, das im Laufe dieses Jahres eingeführt wird, ist die Möglichkeit, Aussagen einen Rang zuzuweisen: nicht alle Aussagen sollen als gleichwertig betrachtet werden. Wir werden drei Ränge einführen und jede Aussage wird in einem von ihnen sein: bevorzugt, normal und überholt.

„Bevorzugte“ Aussagen sollten die aktuellsten und am weitesten akzeptierten Aussagen sein. Es kann mehrere bevorzugte Aussagen für das gleiche Objekt und Eigenschaft geben.

„Überholte“ Aussagen sind die, die aus irgendeinem Grund als nicht zuverlässig angesehen werden. Sie werden aber erwähnt, weil sie eine solide Quelle haben die sie unterstützen oder weil sie aus irgendeinem Grund weit verbreitet aber eigentlich nicht mehr akzeptiert sind. Beispiele können Tippfehler in einflussreichen Lehrbücher sein — zum Beispiel zum Eisengehalt von Spinat, oder der Länge des Rheins – – oder Zahlen, die durch irgendeine Form von Propaganda verbreitet wurden und heute nicht mehr als korrekt angesehen werden.

„Normale“ Aussagen sind also die, die übrig bleiben, also weder „bevorzugt“ noch „überholt“ sind. Dies wird oft für historische Aussagen (die Bevölkerung von Rom in der Zeit von Julius Caesar, ehemalige Hauptstädte von Russland, etc.) gelten.

Technisch werden wir zuerst nur bevorzugte Aussagen für die Beantwortung von Anfragen verwenden (dh, wenn du nach allen Hauptstädten mit einer Bevölkerung von weniger als 500.000 fragen, dann wirst du keine Resultate erhalten bei denen die Stadt eine Bevölkerung von 120.000 im 16. Jahrhundert hatte). Außerdem werden nur diese von der Eigenschaften-Parserfunktion zurückgegeben werden. Die Lua-Schnittstelle hat Zugang zu allen Aussagen und bieten damit volle Flexibilität. Es ist geplant die Abfragemöglichkeiten später zu erweitern um komplexere Abfragen zuzulassen, an welchem ​​Punkt wir uns über die Einbeziehung der anderen Ränge Gedanken machen müssen.

Die Ränge sollten offenere Regeln in Wikidata ermöglichen, sodass eine breitere Vielfalt von Wissen abgedeckt werden kann.

Um eine Vorstellung vom Zeitplan zu geben: Wir werden zunächst die noch fehlenden Datentypen implementieren, und dann, als Voraussetzung für Ränge, die Möglichkeit Aussagen zu ordnen. Danach werden Ränge das nächste verfügbare Feature in Wikidata sein.

Ränge führen einen neuen Vektor in die Debatte ein, den es in Wikidata bisher noch nicht gibt. Die Frage verschiebt sich von „sollte diese Aussage aufgenommen werden?“ zu „was soll der Rang dieser Aussage sein?“ Dies scheint ein notwendiger Schritt zu sein: Im Gegensatz zu natürlichem Text, könnte Wikidata sonst keine Aussagen aufnehmen, bei denen man sich geeinigt hat, dass sie falsch sind aber einen historischen oder anderen Wert haben. Dies macht es umso wichtiger, sich daran zu erinnern, dass es bei Wikidata nicht um die Wahrheit geht, sondern um das Sammeln belegter Aussagen in einer sekundären Datenbank. Das Kriterium für die Aufnahme sollte nicht Wahrhaftigkeit sondern Überprüfbarkeit sein – eine Politik, die Wikipedia sehr gut gediehnt hat.

Wikidata wird immer – und das ist sowohl eine Notwendigkeit als auch im Design anerkannt – weniger können als Wikipedia in vielen Aspekten. Wikipediaartikel können kausale und informellen Verbindungen beleuchten, sie können Neugier wecken und sie können eine der wichtigsten Formen des Wissenstransfers zwischen Menschen unterstützen: Geschichtenerzählen. Wikidata hat andere, einzigartige Vorteile: Es kann einige Grunddaten über ein Thema von Interesse in vielen Sprachen leichter zur Verfügung stellen, und es stellt die Daten in einer Weise bereit, die für Bots und Apps viel leichter zugänglich ist. Es könnte ein Schritt in Richtung Entlastung einiger Wikipedien von einer Menge Bot-erstellter Artikel sein, die nie von einem menschlichen Editor berührt wurden, die letzten Änderungen fluten und Statistiken verzerren.

Ohne die Fähigkeit, eine Vielzahl von Aussagen zu einem Objekt zum Ausdruck zu bringen – auch wenn sie nur von einigen als Wahrheiten und von anderen als Lügen angesehen werden – würde Wikidata einer der wichtigsten Säulen der Wikipedia nicht gerecht werden: dem Neutral Point of View und der Möglichkeit gegensätzlichen Standpunkte zu integrieren.

Ich hoffe, dass die technische Plattform, die wir als Entwickler bauen, und die Regeln und Verfahren der Communities in Wikidata, den Wikipedien und andere Wikimedia-Projekten ein nützliches Ökosystem schaffen, mit dem Verständnis der Grenzen der einzelnen Projekte und dem Willen zu entdecken, wie wir einander am effektivsten helfen können. Und das bedeutet, die eigenartige Beziehung zwischen Wikidata und Der Wahrheit zu verstehen.