WMDE allgemein
21. März 2018
Dieser Blogbeitrag von Goran S. Milovanović erschien ursprünglich auf Englisch im Blog der Wikimedia Foundation.
Wikidata ist die zentrale Wissensdatenbank im Wikimedia-Universum, das mit Wikipedia in all ihren Sprachversionen mittlerweile mehr als 300 freie Online-Enzyklopädien und insgesamt mehr als 800 Wissens-Projekte (Wikimedia Commons, WikiVoyage und Co.) umfasst. Wozu braucht es, wenn man das Ziel verfolgt, das gesamte Wissen der Menschheit abzubilden – das in seiner Komplexität gleichzeitig auch verschiedene Perspektiven, Interpretationen und Standpunkte beinhalten muss – so eine zentrale Datenbank? Einfach ausgedrückt, weil Wissen ein Fundament aus logischen und empirischen Wahrheiten benötigt, eine Reihe an Einschränkungen, die die Grenzen seiner Aussagekraft und Nutzbarkeit definieren.
Während wir also darüber diskutieren können, ob die Relativitätstheorie eine adäquate Beschreibung des physikalischen Universums darstellt, gibt es wenig Grund darüber zu streiten, ob sie von Albert Einstein aufgestellt und in “Die Grundlage der allgemeinen Relativitätstheorie” im Jahr 1916 veröffentlicht wurde, wenn wir diese Fakten denn mit einem angemessenen Grad an Sicherheit und im generellen Konsens als “wahr” definieren können. Egal welche Sprache wir benutzen um Wissen zu vermitteln, in jeder Kultur und bei jeder Zielgruppe: Überall gilt, dass Berlin eine Stadt und gleichzeitig die Hauptstadt Deutschlands ist, außerdem aber auch eine Stadt in North Dakota – ein Fakt, den Wikidata natürlich kennt – daneben ist es aber auch der Name einer amerikanischen Synthpop-Band die den Hit “Take My Breath Away” geschrieben hat.
Wikidata speichert und dokumentiert also Dinge, die – egal ob real oder nicht – existieren, die Fakten über diese Dinge und die Beziehungen, die zwischen ihnen bestehen, in einem riesigen Netzwerk aus über 40 Millionen Items, die elementaren Einheiten in Wikidata. Jedes Item verweist dabei auf etwas, das den Anspruch erhebt, eine sinnhafte, eigenständige Einheit zu sein. Wikidata misst daraufhin die Präsenz dieser Einheiten in den Seiten aller Wikipedia-Sprachversionen und denen ihrer Schwesterprojekte. Diese Tatsache wiederum hat eine besondere Bedeutung, die wir hier näher beleuchten wollen.
Wenn wir Dinge und Ideen als Items in Wikidata begreifen und gleichzeitig wissen, wie oft sich darauf von anderer Stelle bezogen wird und woher, können wir beginnen die globalen Muster nachzuvollziehen, nach denen sich unser gemeinsames Wissen über Wikipedia und andere Wikimedia-Projekte verteilt und wie es dort genutzt wird. Wir fangen an, die Ähnlichkeiten und Unterschiede zu verstehen in der Art und Weise wie wir denken und Dinge, Ideen, Menschen, Geschehnisse und alles Übrige, das irgendwie existiert, miteinander in Verbindung setzen – in unseren jeweiligen Ehrenamtlichen-Communitys, Sprachen und Kulturen. Wir können damit beginnen, eine Karte von konzeptueller Diversität und Komplexität zu erstellen, und ihr dabei zusehen, wie sie wächst, während tausende Menschen über Wahrheit und Belegbarkeit in der Wikipedia lesen, schreiben und debattieren und dabei ein Bild der Debatte als solches gleich mitliefern. Ein einziger Mensch könnte ein Zusammenführen all dieser Informationen nicht leisten: Der Umfang und die Tiefe der Informationen wäre überwältigend. Deshalb haben wir dafür Maschinen und Algorithmen zur Hilfe genommen und den Wikidata Concepts Monitor (WDCM) entwickelt, um all diese Informationen verarbeiten zu können.
Wie zum Beispiel würde die Welt aussehen, wenn die Größe eines Landes jeweils der Häufigkeit entspräche, mit der ihr dazugehöriges Wikidata Item (sprich “instances of country(Q6256)”) in allen Wikipedia-Sprachversionen und ihren Schwesterprojekten vorkommt. Die folgende Karte gibt darüber Auskunft.
Abbildung 1: Eine Kartenanamorphote der Wikidata-Item-Nutzung einzelner Länder in über 800 Wikimedia-Projekten. Auf einen Blick deutlich, wie disproportioniert das Wissen über bestimmte Länder in den Wikimedia-Projekten verteilt ist.
Diese verzerrte Karte – genauer gesagt eine Kartenanamorphote – wurde generiert, indem man einen intelligenten GIS-Algorithmus über die Datensets des Wikidata Concepts Monitor (WDCM) hat laufen lassen. Die Fläche jedes Landes wurde dabei so lange umgeformt, bis sie proportional der Häufigkeit entspricht, mit der das Wikidata-Item, das auf sie verweist, in über 800 Wikimedia-Projekten auftaucht.
Das WDCM-System, das von Wikimedia Deutschland 2017 entwickelt wurde, hat die spannende Aufgabe, das Vorkommen und die Nutzung von Wikidata-Items in allen Wikimedia-Projekten zu tracken, zu analysieren und zu visualisieren. Es ist eine Statistik-Maschine, die derzeit 14 semantische Kategorien in Wikidata trackt, die wiederum insgesamt über 35 Millionen Wikidata Items enthalten. Die Resultate werden daraufhin in vier speziellen Dashboards veröffentlicht: Overview (Übersicht), Usage (Nutzung), Semantics (Semantik) und Geo (Geolocation). Letzteres stellt interaktive Karten von Items mit Geodaten gemeinsam mit deren Nutzungsstatistiken bereit.
Was ist die Motivation hinter der Entwicklung eines solchen Systems? Einfach ausgedrückt ist es die Tatsache, dass es nur dann möglich ist, richtungsweisende Entscheidungen zur Weiterentwicklung eines riesigen sozio-technischen Systems wie der Wikipedia und ihren Schwesterprojekten zu treffen, wenn man dabei auf eine angemessene und zuverlässige Datenquelle zurückgreifen kann. Diese Entscheidungen können eigentlich nur ganz am Anfang im Entwicklungsprozess eines solchen Systems eingebracht werden, solange die inhärenten Möglichkeiten seines Designs die Möglichkeiten seiner tatsächlichen Anwendung übertreffen. Für erfolgreiche Systeme wie Wikidata ist dieses Zeitfenster in der Regel relativ kurz, da solche Systeme die Eigenschaft haben, schnell anzuwachsen. Um also zu verstehen, was in der Weiterentwicklung Wikidatas passieren muss, muss man zunächst nachvollziehen können, wie unsere Ehrenamtlichen-Communitys Wikidata nutzen. Darüber hinaus ist es besonders wichtig, dass die Communitys selbst ein Verständnis der Zusammenhänge und Muster ihrer eigenen Wikidata-Nutzung entwickeln. Das allerdings wäre ohne ein System wie das WDCM, das alle relevanten Zahlen und Hintergründe auswertet und deren inhärente Komplexität mathematisch auf ein handhabbares Maß herunterbricht, selbst dann zu kompliziert für einen Einzelnen oder eine Einzelne, wenn man sich dabei auf ein einziges Projekt beschränken würde.
Ein Beispiel: Wir haben Items zu Millionen von Dingen in Wikidata, aber benutzen wir sie alle auch gleichhäufig? Natürlich nicht. Das nebenstehende Säulendiagramm (generiert mit dem WDCM) zeigt die Wikidata Nutzungs-Statistiken für die 14 semantische Kategorien auf, die derzeit in den Wikimedia-Projekten getrackt werden. Interessant anzumerken ist hier, dass die Nutzung der Kategorie “scientific articles (Q13442814)” (“wissenschaftliche Artikel”) in Wikipedia vernachlässigbar ist – vernachlässigbar deshalb, weil wissenschaftliche Artikel rund ¼ aller in Wikidata hinterlegten Einträge ausmachen. Das Übergewicht der semantischen Kategorien “geographical object (Q618123)” (“geografisches Objekt”) und “human (Q5)” (“Mensch”), zeigt uns wiederum, dass die Inhalte der Wikipedia in all ihren Sprachversionen sich vor allem mit dem “Wer” und dem “Wo” beschäftigen – die zwei wesentlichen Informationen die benötigt werden, um die Ordnung der sozialen Welt als solche begreifbar zu machen.
Abbildung 2: Überblick über die gesamte Wikidata-Item-Nutzung in Wikipedia, aufgeschlüsselt nach 14 semantischen Kategorien. Die WDCM-Nutzungsstatistik (vertikale Achse) ergibt sich aus der Zahl an Wikipedia-Seiten, in denen ein bestimmtes Wikidata-Item mindestens einmal auftaucht. Die Kategorie “Wikimedia” umfasst dabei Seiten wie Wikipedia-Kategorien, Begriffserklärungsseiten und Templates. Die Grafik basiert auf den Zahlen vom WDCM-Update vom 1. Januar 2018.
Im nächsten Schritt werden die WDCM-Datensets mit den Statistiken aus Wikistats abgeglichen, um einen Überblick über die globale Nutzung von Items aus Wikidata zu visualisieren.
Abbildung 3: Wikidata Item-Nutzung (vertikale Achse), Zahl der Artikel in der jeweiligen Wikipedia-Sprachversion (horizontale Achse), Verhältnis von Edit-Anzahl zu Artikel-Zahl (Farbskala) und Zahl aktiver Nutzender (Punktgröße)
Die Größenverhältnisse werden logarithmisch dargestellt, um eine zu große Überlappung von Datenpunkten und deren Bezeichnungen zu vermeiden. Jeder Datenpunkt des Diagramms repräsentiert eine Wikipedia-Sprachversion, während nur die 25 größten Wikipedias (gemessen an der Häufigkeit an Vorkomnissen von Wikidata-Items), mit einer Bezeichnung versehen wurden. Die horizontale Achse zeigt die Zahl der Artikel der jeweiligen Wikipedia-Sprachversion an während die vertikale Achse auf die dazugehörige Wikidata-Nutzungs-Statistik verweist. Die Größe der Datenpunkte ist proportional zur Zahl der aktiven Nutzenden des Projekts, während die Farbskala das Verhältnis von Zahl der Bearbeitungen und Artikelanzahl kenntlich macht.
Der WDCM wurde entwickelt, um anhand dieser und ähnlicher Daten Fragen wie diese zu beantworten:
- Wie oft werden die unterschiedlichen Klassen von Wikidata-Items in den Wikimedia-Projekten genutzt?
- Was sind die am häufigsten benutzten Wikidata-Items in einem bestimmten Wikimedia-Projekt oder in einer bestimmten Wikidata-Kategorie?
- Wie können wir Wikimedia-Projekte nach charakteristischen Mustern kategorisieren, die wir anhand der Wikidata-Nutzung erkennen können?
- Welche Wikimedia-Projekte sind ähnlich in ihrer Nutzung von Wikidata-Items, sowohl in der Gesamtbetrachtung als auch in der Nutzung einer definierten Reihe an Items?
- Wie ist die Nutzung von Wikidata-Items mit hinterlegten Geo-Daten (zum Beispiel solche, die für GLAM-Initiativen von Bedeutung sind) räumlich und geografisch verteilt?
Antworten auf die ersten zwei Fragen zu finden, kann uns dabei helfen, die jeweiligen Interessen der Ehrenamtlichen in einzelnen Wikimedia-Projekten oder ganzen Gruppen von Wikimedia-Projekten (Wikipedia, Wiktionary, Wikicite, etc.) besser zu verstehen. Das bedeutet ein besseres Verständnis vom Inhalt der jeweiligen Projekte: Worum geht es darin? Welche Items und Gruppen von Items nutzen sie häufig, welche weniger häufig?
Die dritte und vierte Frage beziehen sich auf die strukturellen Eigenschaften der Wikidata-Nutzung: Welche Muster lassen sich in den jeweiligen Projekten erkennen und wie sehr ähneln sie sich in der Art und Weise, wie sie Wikidata Items nutzen? Genau hier kommt maschinelles Lernen ins Spiel: Die Ergebnisse können uns dabei helfen herauszufinden, welche größeren Wikipedia-Sprachversionen, die Wikidata bereits häufig benutzen, kleineren Wikipedias ähneln, die gerade erst anfangen, Wikidata zu integrieren. Daraus können wir schlussfolgern, welches Projekt von wem etwas lernen kann und – am allerwichtigsten – welche Projekte wir miteinander vernetzen müssen. Dieser Aspekt des WDCM fungiert also quasi als Empfehlungs-Motor für Community Manager, die daran interessiert sind, verschiedene Ehrenamtlichen-Communitys miteinander zu verknüpfen um die Nutzung von Wikidata in Wikipedia und Co. auszubauen.
Abbildung 4: Jeder Knotenpunkt in diesem gerichteten Graph steht für eine der größten 100 Wikipedia-Sprachversionen in Bezug auf ihre Wikidata-Nutzung. Jeder Punkt zeigt mit einem schwarzen Pfeil auf die Sprachversion, zu der die größte Ähnlichkeit in Bezug auf die Verwendung und das Vorkommen von Wikidata-Items besteht. Der graue Pfeil zeigt jeweils auf die Sprachversion mit den zweitmeisten Überschneidungen. Daraus lässt sich ableiten, zwischen welchen Wikipedia-Sprachversionen größere inhaltliche und thematische Ähnlichkeit bestehen
Das obenstehende Diagramm ordnet die größten 100 Wikipedia-Sprachversionen (die größten 100 in Bezug auf die Wikidata-Nutzung) in Cluster, die anhand statistischer Muster ihrer Wikidata-Nutzung gruppiert wurden. Im WDCM Journal (der Ort, an dem wir regelmäßig (auf Englisch) über Erkenntnisse berichten, die uns der WDCM liefert) vom 29. Januar, haben wir aufgezeigt, wie man herausfinden kann, welche Wikimedia-Projekte eine dynamischere, eher unberechenbare Entwicklung in Bezug auf Wikidata-Nutzung eingeschlagen haben, und für welche Projekte sich zur Zeit für eine mehr oder weniger konstante Strategie ihrer Wikidata-Nutzung finden lässt. Dort findet man auch weitere Informationen zur Methodologie hinter der Erstellung des Diagramms.
Antworten auf die fünfte oben genannte Frage können dabei helfen, Voreingenommenheiten und Verzerrungen in der Nutzung bestimmter Items aufzuzeigen, wie zum Beispiel der Nord-Süd-Konflikt, den auch schon die Kartenanamorphote zu Beginn des Blog-Posts verdeutlicht hat. Menschen, die mit GLAM-Institutionen arbeiten, können ein ähnliches Problem bei ihrer Arbeit feststellen: Galerien, Bibliotheken, Archive und Museen glühen im folgenden Diagramm blau und hell in Proportion zu ihrer Wikidata-Nutzung.
Abbildung 5: Galerien, Bibliotheken, Archive und Museen (GLAM-Institutionen) in Wikidata: je größer und heller die Punkte auf der Karte leuchten, desto häufiger tauchen die entsprechenden Wikidata-Items in über 800-Wikimedia-Projekten auf. GLAM-Institutionen aus dem globalen Süden und das in ihnen gesammelte Wissen tauchen demnach viel weniger in Wikimedia-Projekten auf, als aus beispielsweise Europa.
Unterhalb des Äquators wird es ganz schnell ziemlich dunkel, oder? Das eine hervorstechende Item in der südlichen Hemisphäre ist die Australische Nationalbibliothek (Q623578), die gleichzeitig das am dritthäufigsten genutzte Wikidata-Item aus der Kategorie “architektonischer Bau” ist (häufiger referenziert sind nur zwei weiteren Bibliotheken, die Library of Congress (Q131454) und die Bibliothèque nationale de France (Q193563); Diese Information kann man im WDCM Usage Dashboard nachvollziehen, indem man die Kategorie “Architectural Structure” unter dem Reiter “Usage” und im Abschnitt “Category Report” aufruft und dann bis zur “top 30 Wikidata items”-Tabelle scrollt). Man kann nun natürlich das Argument anführen, dass es schlicht weniger GLAM-Institutionen im globalen Süden als im globalen Norden gibt, aber warum nutzen wir sie deshalb dann nicht mehr in Wikipedia und ihren Schwesterprojekten? Denn nur, wenn wir das Wissen aus Institutionen aus dem globalen Süden für Menschen zugänglich machen, besteht überhaupt die Chance, das Menschen die bestehenden Institutionen kennenlernen.
Das WDCM soll in Zukunft auch noch weitere Fragen beantworten können: Ein Index zum Gender Gap in der Wikidata Nutzung, also ein Tracking der Nutzung des Items Human (Q5) (“Mensch”) in Bezug auf Geschlecht und über verschiedene Wikimedia-Projekte hinweg, ist derzeit bereits in der Entwicklung, und soll dabei helfen, Ungleichheiten und Voreingenommenheiten zu identifizieren. So wollen wir herausfinden, wo wir diese Probleme nachdrücklicher angehen müssen. Diese und weitere zukünftige Indikatoren, die sich mit dem WDCM zu Wikidata-Nutzungs-Verzerrungen aufstellen lassen, sind als Wissens-Gerechtigkeits-Komponenten des Systems geplant, der Rest des Systems ist auf den Ausbau und die Förderung von “Wissen als Dienst” ausgelegt. Wissens-Gerechtigkeit, bzw. engl. “Knowledge Equity” und Wissen als Dienst, bzw. engl. “Knowledge as Service” sind dabei die zwei zentralen Bestandteile des Strategieprozesses der internationalen Wikimedia-Bewegung.
Alle WDCM Wikidata-Nutzungs-Datensets sind unter https://analytics.wikimedia.org/datasets/wdcm/ frei verfügbar. Viele aggregierte Datensets, darunter auch individuell angepasste, können im WDCM Usage Dashboard heruntergeladen werden.