Dies ist der dritte in einer kurzen Serie von Blog-Einträgen, in denen ich einige der Design-Entscheidungen für Wikidata erkläre. Der erste handelte von der Einschränkung von Eigenschaften und ihren Werten, im zweiten ging es um Wahrhaftigkeit und Überprüfbarkeit. Die Essays spiegeln meine persönliche Meinung wider und sind nicht als offizielle Haltung des Wikidata-Projekts zu verstehen.

Zunächst ein Name, der Leuten, die sich mit Wissensrepräsentation beschäftigen, sehr, sehr stark am Herzen liegt: Barbara. Er wurde vor etwa 2500 Jahren eingeführt von Aristoteles (Lehrer von Alexander dem Großen, der im Alter von 33 Jahren die gesamte bekannte Welt erobert hatte. Schule und gute Lehrer spielen also eine Rolle!) und ein Jahrtausend später von meinem Lieblings-Philosophen Boethius benannt. (Ernsthaft, dieser Kerl ist genial! Erst hatte er alles, was man sich in dieser Zeit hätte wünschen können – und dann verlor er alles. Lest mal seine Biographie, lohnt sich. Er hatte seine beiden Söhne zu Konsuln des mächtigstes Reichs der Welt gemacht und dann wurden ihm unverhofft all seine Reichtümer genommen, Familienmitglieder wurden umgebracht und er selbst durfte im Gefängnis auf seine eigene Hinrichtung warten. Und anstatt zu jammern, setzte er sich hin und schrieb ein Buch darüber, was im Leben wirklich wichtig ist. Lest seinen Trost der Philosophie. Es verharrte einige Jahrhunderte auf der Bestseller-Liste, und das nicht ohne Grund. Könige schrieben es sogar von Hand ab!) Barbara ist eine logische Grundlage für alles, was mit Klassen zu tun hat. Vielleicht kennt ihr Klassen als Typen, Kategorien, Gattungen oder irgendetwas anderes, das irgendwie taxonomisch ist. Barbara ist ein Syllogismus, also eine Regel zum korrekten Schließen. Der Modus Barbara besagt, dass, wenn für alle A gilt, dass sie B sind und alle B auch C sind, dann sind auch alle A zwangsläufig C. Ein Beispiel: Wenn wir wissen, dass alle Milliardäre Menschen sind und alle Menschen sterblich sind, dann zack, können wir daraus schließen, dass auch alle Milliardäre sterblich sind.

Aristoteles‘ Vorstellung von Kategorien und Logik hat das westliche Denken tiefgreifend geformt und hat das gesamte Unterfangen „Wissensrepräsentation“ noch immer fest in der Hand. Jedes Buch zu diesem Thema verschreibt sich auch der Aufgabe, dem Leser verständlich zu machen, wie unheimlich wichtig diese Ideen sind. Ernsthaft. Jedes Buch, das ich lese. Brachman? Die ganze Idee der Beschreibungslogik ist nichts anderes als Klassen effizient zu beschreiben. Sowa? Barbara auf Seite zwei. Russell und Norvigs AIMA? Das Kapitel über Wissensrepräsentation beginnt mit einer Abbildung der Top-Level-Ontologie der Welt, einer Klassifizierung von quasi allem. Falls euch mal ein Buch über Wissensrepräsentation in die Hände fallen sollte, in dem es nicht auch um Klassifikation geht: lasst es mich bitte wissen.

Ich habe Philosophie und Informatik studiert und anschließend meinen Doktor im Bereich Ontologien gemacht und ein Verknüpfungspunkt dieser Dinge war die immense Wichtigkeit von Kategorien und deren Taxonomien, sei es in der Logik, im objekt-orientierten Design oder in den OWL-basierten Ontologien, mit denen ich gearbeitet habe.
Selbst in Semantic MediaWiki fingen wir nicht mit viel Automatischem Schließen an, (Das hat sich im Laufe der Zeit geändert, ist allerdings im Rahmen der Beschreibungslogik geblieben.) aber seit dem ersten Paper, als Semantic MediaWiki noch nur eine Idee war und Markus und ich keinerlei Erfahrung mit PHP hatten, war uns klar, dass Kategorien und Unterkategorien von höchster Bedeutung sein würden.

In Anbetracht all dessen ist es natürlich sehr schwer für mich, folgendes Geständnis zu machen: Ich mag Klassifizierung nicht. Ich mag Barbara sogar noch weniger. (Nichts persönliches. Ich kenne ein paar Barbaras im wirklichen Leben und sie sind alle super. Das hier hat nichts mit ihnen zu tun.) Naja, vielleicht ist „nicht mögen“ der falsche Ausdruck. Ich bin nur sehr vorsichtig, was sie angeht. Ich misstraue ihnen. Sie erfüllen mich mit Unbehagen. Ich habe ein mulmiges und schwer zu erklärendes Gefühl, wenn ich an sie denke. Und deshalb würde ich den Gedanken an sie gerne verwerfen. Nur kurz. Und mal schauen, wie es funktioniert.

Ich schlug also vor, sich Wikidata mal ohne Klassifizierung vorzustellen. (OK, vielleicht waren meine Worte eher „Lasst uns einfach diesen kompletten Klassifikations-Unfug abschaffen!“, aber ihr wisst schon, was ich meine.) Und, um es kurz zu machen: Ich hätte mir in keinster Weise vorstellen können, auf was für Reaktionen ich stoßen würde. Erstaunte Gesichter, lange Diskussionen mit so ziemlich jedem um mich herum. Alle sagten: „Was für eine Schnapsidee!“ (Möglicherweise war es auch „Überdenk es doch vielleicht noch einmal“. Die meisten von ihnen sind viel höflicher als ich.) Menschen mit denen ich gearbeitet habe. Menschen, von denen ich gelernt habe. Menschen, die ich bewundere. Die Möglichkeit, klassifizieren und kategorisieren zu können, scheint imperativ für Wikidata zu sein.

Also, worum geht es eigentlich? Grundsätzlich geht es um zwei Eigenschaften, die instanceOf-Eigenschaft und die subClassOf-Eigenschaft. (Vielleicht lohnt sich hier ein kurzer Blick auf die Kurzeinführung des Wikidata Datenmodells, falls die Begriffe nicht ganz klar sind.) Offensichtlich ist es unmöglich, sie nicht in Wikidata zu haben (Da die Community nach Belieben Properties erstellen kann, erschienen diese beiden – wie erwartet – innerhalb der ersten paar Tage, in denen es überhaupt Properties gab.) und da ich nicht vorschlage, sie abzuschaffen, ist die Frage im Grunde, ob sie in den Genuss einer Sonderbehandlung kommen sollten oder ob sie einfach Eigenschaften wie alle anderen sein können?

Denken wir kurz an die Kategorien in Wikipedia. Sie begannen auch als normale Links, haben sich dann aber langsam und leicht chaotisch in das heutige Kategoriensystem verwandelt, in dem Kategorie-Links ganz anders behandelt werden als normale Links, wo es eine Fülle von Kategorienseiten und speziellen Kategorie-Funktionsweisen gibt. Versteckte Kategorien, Kategorie-Bäume, Unterkategorien, Funktionalität für den Umgang mit sehr großen Kategorien, usw.

Meine eigene Position ist folgende: Lasst sie uns wie jede andere Eigenschaft auch behandeln. Lasst uns davon absehen, ihnen eine besondere Bedeutung zukommen zu lassen. Nennen wir das ganze „schwache Klassifizierung“. Wikidata hat das.

Aber können wir die „starke Klassifikation“ einfach weglassen? Oder sollte Wikidata über Barbara Bescheid wissen und ihre Gesetze einbauen? Was würden wir denn verlieren, ohne starke Klassifizierung? Wenn wir ein Statement „Instanz von: Milliardär“ beim Datenobjekt „Bruce Wayne“ hinzufügen und beim Datenobjekt „Milliardär“ das Statement „Instanz von: Person“ steht, dann könnte man vielleicht erwarten, dass „Bruce Wayne“ auch automatisch eine Person ist. Und wenn wir eine Anfrage nach allen Personen stellen, könnte man sich wünschen, dass Bruce Wayne unter den Ergebnissen auftaucht. Der aktuelle Entwurf des Wikidata Datenmodells stellt bestimmte Wege vor, diese beiden Eigenschaften zu modellieren.(Dieser Entwurf nimmt zum Beispiel an, dass Qualifizierer und Referenzen auf diese Properties nicht anwendbar sind, da sie Veränderungen bei der Semantik von solch einem Statement vornehmen können.

Es erweckt außerdem den Anschein, dass die Möglichkeit zur Klassifizierung für viele Menschen selbstverständlich ist und ein System, das dies nicht bereithält, sie zu Tode verwirrt. Die Kosten für einen Verzicht auf Klassifikation sind also recht hoch, und ich bin mir dessen bewusst. Weshalb also möchte ich starke Klassifizierungen immer noch ablehnen?

  • Klassifizierungen wird mehr Bedeutung zugeschrieben als Eigenschaftszuweisungen. Die Aussage „Nikola ist ein Serbe“ hat eine viel umfassendere Bedeutung als zu sagen „Nikola lebt in Serbien“ oder „Nikola ist in Serbien geboren“. Man könnte sagen, „ein Serbe zu sein bedeutet genau das, was die Definition besagt, und wenn die Definition darauf festgelegt wird, dass ein Serbe zu sein einfach bedeutet, die serbische Staatsbürgerschaft zu besitzen, dann gibt es auch kein großes Problem“ – aber in Wikidata planen wir noch keine Möglichkeiten zur Repräsentation dessen, was eine Klasse über die natürliche Sprache hinaus bedeutet. In Wikidata befindet sich die Bedeutung einer Klasse zwischen sozialem Konstrukt und der Funktionsweise des Systems. Falls ihr nicht glaubt, dass es da Probleme geben kann: schaut mal in die Versionsgeschichte des Artikels über Nikola Tesla und seht, wie sehr die Menschen sich darum streiten, ob er nun Serbe, Kroate, Amerikaner oder irgendeine Kombination davon ist. Sie streiten sich nicht so sehr darum, wo er geboren wurde oder welche Staatsbürgerschaften er innehatte. Und für diejenigen, denen Beispiele nicht ausreichen: An diesen Effekten wird auch geforscht. Um nur einen Artikel zu nennen: Yamauchi, T. (2007). The Semantic Web and human inference: A lesson from cognitive science in Lecture Notes in Computer Science vol. 4825, pp. 609-622)
  • Für eine Aussage in Wikidata kann eine Referenz angegeben werden, die in der Regel bei Abruf der Information angezeigt wird, so dass auf die Quelle zugegriffen und abgewogen werden kann, ob man ihr Glauben schenken möchte oder nicht. Die Quelle einer Klassifizierungsaussage hingegen mag im Hintergrund bleiben, nicht angezeigt werden und sich so einer Einzelbeurteilung entziehen. Wenn ich nach allen Personen frage und unter anderem Bruce Wayne erhalte, dann vielleicht weil alle fiktiven Milliardäre Milliardäre sind und alle Milliardäre Personen. Aber wie und wo kann ich die Referenzen für diese Zwischenschritte angeben? Ja, das ist ein Problem für die meisten Arten von logischen Schlüssen. Deshalb würde ich gerne zumindest solange auf Schlussfolgerungen innerhalb von Wikidata verzichten, bis wir genauer wissen, wie die Wikidata- und Wikipedia-Communitys mit dem Wikidata-System interagieren. Schlussfolgerungen können außerdem Auswirkungen haben, die schwer zu lokalisieren und somit in einem Wiki schwer zu korrigieren sind.
  • Wenn Qualifizierer nicht auf Typen- und Unterklassen-Eigenschaften angewandt werden dürfen, dann werden auch andere Ausdrucksmöglichkeiten beschränkt. Die Aussage „Der Kosovo ist ein Staat“ ist offensichtlich problematischer als „Der Kosovo wird von der Bundesrepublik Deutschland als Staat anerkannt“. Hier ist also der Qualifizierer „anerkannt von“ am „ist ein“-Statement sinnvoll. Die Aussage „Türken sind Europäer“ wird möglicherweise eher umstritten sein, als wenn wir einen Qualifizierer angeben können, der Anatolier bei dieser Aussage ausklammert. Wie dieses Beispiel zeigt, wird eine solche Klassenhierarchie nach wie vor ziemlich kontrovers bleiben. Und ich glaube, wir sollten vorsichtig damit sein, dass Wikidata nicht zu einem Ort wird, an dem die Hierarchie aller Klassen der Welt diskutiert wird. Wikidata kann nämlich eine Menge nützlicher Informationen bereitstellen, ohne sich diese Last aufzuhalsen. Vor allem, wenn die Informationen eine spezielle Bedeutung innerhalb des Systems haben.
  • Zu guter Letzt: Klassifizierung findet vor allem bei einigen Bevölkerungsgruppen Anklang, die bei Wikidata/Wikipedia sowieso schon überrepräsentiert zu seien scheinen. So ist insbesondere das westliche Denken stark durch die Lust am Klassifizieren geprägt. (Ich empfehle das sehr lesenswerte Buch The Geography of Thought zu diesem Thema.) Es ist unklar, ob die Verstärkung der Klassifizierungsmöglichkeiten diese demografische Zusammensetzung der Wikimedia-Projekte nicht noch weiter verstärken würde, obwohl eines der erklärten Ziele von Wikimedia mehr Editoren _und_ größere Vielfalt der Editoren ist.

Kurz gesagt, meine Entscheidung ist es, keine Priorität auf eine starke Klassifizierung zu legen. Stattdessen werde ich mehr Augenmerk auf Datentypen, Ränge, Abfragen und Ausgabemöglichkeiten legen. Was wir in Wikidata tun, ist sowieso gewissermaßen ein Kompromiss und fordert als solcher Abwägungen von Prioritäten. Starke Klassifizierung kann zu einem späteren Zeitpunkt immer noch hinzugefügt werden, zusammen mit anderen Schlüssen (oder Syllogismen), sobald wir erstmal anfangen zu verstehen, wie Wikidata überhaupt als sozio-technisches System funktioniert. (Siehe dazu auch den Artikel von Mathias Schindler und mir darüber, wie Wikipedia sich in der Vergangenheit angesichts solcher Feature als sozio-technisches System entwickelt hat.) Es kann dann sogar durch externe Dienste hinzugefügt werden. Außerdem können die Vorteile einer starken Klassifizierung auch durch die Community selbst erreicht werden, wenn Typ-Aussagen explizit gemacht werden – etwas, wozu ich die Community gerne ermuntern möchte und was ich sehr stark begrüße. Schon jetzt hat eine zunehmende Zahl von Eigenschaften zusätzliche Beschreibungen auf ihrer Diskussionsseite. Diese können von Bots dazu genutzt werden, automatische Berichte zu erstellen, die der Community bei der Pflege von Wikidata helfen. Wir werden ein Auge auf diese Aktivitäten haben und schauen, was getan werden kann um sie besser zu unterstützen. Dieser Umstand zeigt auch, dass Wikidata es hinbekommt, ausreichend flexibel zu sein um diese Art von Aktivitäten zu unterstützen.

Ich habe diesen Essay geschrieben, um eine Begründung für meine Entscheidung zu liefern und zu einer breiteren Beteiligung in der Diskussion einzuladen. Trotz der überwiegend negativen Reaktionen, die ich bis jetzt bekommen habe, möchte ich nämlich eigentlich gerne stur bleiben. Aber das Wissen darum, dass diese negativen Reaktionen von sehr intelligenten Menschen kommen, macht mich misstrauisch und so möchte ich also gerne eine noch größere Zahl von Menschen dazu einladen, sich mit dem Thema zu befassen und mitzureden. Schließlich ist Wikidata – genauso wie Wikipedia – nicht nur „für jeden“, sondern auch „von jedem“.