zur Artikelübersicht

ProWD: Ein Werkzeug zum Erkennen von Datenlücken in Wikidata

Ein Ziel der Wikidata-Community ist die Verbesserung der Qualität und Ausgewogenheit der Daten in der Wissensdatenbank. Die Anwendung ProWD ist ein Werkzeug zur Entdeckung von Lücken in Wikidata. Im Interview erklären Nadyah Hani und Refo Ilmiya, die an dem Tool als Abschlussarbeit in Informatik arbeiteten, wie ProWD Datenlücken schließt.

WMDE allgemein

16. September 2020

Wikidata ist mit derzeit 89 Millionen Datenobjekten die größte offene Datenbank der Welt, doch auch sie hat Lücken und Ungleichgewichte. Die Gründe dafür sind komplex: so wurden historisch für lange Zeit Daten aus den Bereichen Naturwissenschaft und der westlichen Geschichte erhoben, während manche Felder, wie die Lebenswelten und Geschichten von nicht-westlichen Kulturen oder Minderheiten, systematisch unterrepräsentiert sind. Um die Lücken aufzuzeigen, analysiert ProWD die Verteilung von Daten in Wikidata. Durch die Erstellung von Dashboards können die Nutzer*innen Lücken in den Daten entdecken und sie verbessern.

Elisabeth Giesemann: Wer seid ihr und wie habt ihr ProWD entdeckt?

Nadyah Hani: Wir studieren beide Informatik an der Universitas Indonesia. Ich interessiere mich für Datenanalyse und Nutzerforschung und beschäftige mich auch viel mit Frontend-Entwicklung.

Refo Ilmiya: Ich interessiere mich hauptsächlich für Data Science und Softwaretechnik. Wir haben das Projekt in einem Kurs zum Semantic Web entdeckt und uns dem Forschungsteam angeschlossen. Wir haben dann darüber auch unsere Bachelor-Arbeit geschrieben, es war eine tolle Lernmöglichkeit. 

Elisabeth: Wie war es, Wikidata für ein Uniprojekt zu verwenden? 

Nadyah: ProWD ist eine Fortsetzung eines Forschungsprojekts, es wurde ursprünglich von einer anderen Studentin in einem älteren Jahrgang, Avicenna Wisesa, durchgeführt und von uns weiterentwickelt. Wir haben sechs Monate daran gearbeitet, in den ersten beiden Monaten haben wir vor allem Wikidata und das Semantic Web studiert und vier Monate lang haben wir dann die Seite mit Hilfe von Dr. Fariz Darari und Dr. Panca O. Hadi Putra von der Universitas Indonesia entwickelt. Außerdem waren Prof. Werner Nutt von der Freien Universität Bozen und Dr. Simon Rasniewski vom Max-Planck-Institut beteiligt. 

Refo: Wir hatten beide nur wenig Vorerfahrung mit Wikidata und waren bis zum Forschungsprojekt nicht besonders aktiv. Vor zwei Jahren besuchten wir an unserer Universität einen Workshop über Informationen zu Indonesien auf Wikidata. Es war hauptsächlich eine Einführung darüber, wie man darauf zugreifen und Daten beitragen kann. 

Elisabeth: Erklärt doch bitte ProWD und wie es funktioniert!

Nadyah: ProWD zeigt die Verteilung der Einträge in einer Klasse von Wikidata-Items. Dazu verwendet es das Maß des Gini-Koeffizienten. Der Gini-Koeffizient misst die Ungleichheit zwischen den Werten einer Häufigkeitsverteilung und ist vor allem dafür bekannt, das Niveau der Einkommensungleichheit zu beschreiben. Ein Gini-Koeffizient von Null drückt also eine vollkommene Gleichheit der Daten aus, bei der alle Werte gleich sind (z.B. wenn alle das gleiche Einkommen haben). Ein Gini-Koeffizient von eins (oder 100%) drückt die maximale Ungleichheit zwischen den Werten aus. 

Refo: Wenn man also an einem Thema auf Wikidata interessiert ist, kann man ein Profil in einem Dashboard erstellen, indem es gefiltert wird. So kann man unterrepräsentierte Themen identifizieren. ProWD zeigt den Gini-Koeffizienten und die Verteilung der Wikidata-Items einer Klasse an und die Nutzer*innen können so erkennen, wo Daten fehlen und sie entsprechend hinzufügen. 

Nadyah: Die App verfügt auch über Dashboards, mit denen man zunächst herumspielen und ausprobieren kann. 

Refo: Überraschend für uns war, dass die meisten Klassen von Items bereits ziemlich ausgewogen sind. Allerdings weisen die Unterklassen oft hohes Ungleichgewicht auf. 

Mit ProWD können zum Beispiel Personen mit dem Beruf Informatiker*in in Wikidata gefiltert werden. Die Klasse ist unausgewogen, was bedeutet, dass einige Items der Klasse viele Einträge in Wikidata haben, andere hingegen nicht. 

ProWD erlaubt es dem Benutzer, die regionale Verteilung von Informatiker*innen weltweit zu vergleichen. 

Das Tool bietet auch einen Überblick über die Geschlechterverteilung von Informatiker*innen, die einen Eintrag in Wikidata haben. 

Elisabeth: Wie schließt man damit jetzt Datenlücken in Wikidata?

Nadyah: Wenn man also eine Gruppe von Items entdeckt, die stark unausgewogen ist, können die häufigsten Properties (Eigenschaften) auf ProWD nachgeschlagen werden. Diese kann daraufhin hinzugefügt werden. Auf diese Weise können die Lücken Schritt für Schritt geschlossen werden. 

Refo: Die Anwendung kann also vor allem für die Erkennung Anomalien und den Vergleich verwendet werden. Wir sehen ProWD hier hauptsächlich als ein Erkennungssystem. Indem es  die Lücken in den Daten aufzeigt, kann sie weitere Untersuchungen zu bestehenden Ungleichgewichten auslösen. 

Nadyah: Die Daten können einen ersten Eindruck vermitteln und das kann ein Auslöser für weitere Forschung sein, z.B. darüber, warum weniger Daten vorhanden sind. Liegt es an Wikidata, oder hat die Geschlechterverteilung bei Wissenschaftler*innen Gründe, die eigentlich in unserer Gesellschaft liegen?

Elisabeth: Was ist eure Empfehlung für andere Entwickler*innen, die Tools mit Wikidata bauen wollen?

Nadyah: Nehmt so früh wie möglich Kontakt zur Nutzerbasis auf und konzentriert Euch auf deren Bedürfnisse! Anstatt nur darüber nachzudenken, wie etwas technologisch funktionieren kann, ist es meiner Meinung nach wichtig zu verstehen, was Wikidata-Nutzer*innen wirklich brauchen. 

Die Wikimedia-Community in Indonesien war sehr hilfreich. Mit den Mitgliedern haben wir Interviews durchgeführt, um die Benutzerfreundlichkeit zu testen. Aber es wäre sicher sehr gut, wenn wir eines Tages mit der internationalen Community Nutzerforschung betreiben könnten!

Elisabeth: Was ist der nächste Schritt für ProWD?

Refo: Wir haben unser Programm abgeschlossen und planen, unsere Arbeiten einzureichen, in denen wir sowohl die Analytik als auch die Schnittstelle beschreiben.

Nadyah: Es gibt noch viel Potenzial in Open Data, das wir mit den richtigen Werkzeugen erschließen können. Für ProWD werden jetzt andere Student*innen daran arbeiten, es weiter zu verbessern. 

Nadyah und Refo zeigten mir die interessantesten Items (Hier: Songs von Queen) auf Wikidata und sprachen mit mir über ihr Universitätsprojekt ProWD.

Kommentare

  1. Eddi Kerchemer
    18. September 2020 um 10:38 Uhr

    hmm, der Artikel ist nur schwer verständlich. Ist er einfach nur schlecht übersetzt?
    Das kann man besser machen!
    Den Studenten wünsche ich viel Erfolg.
    Gruß Eddi

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert