zur Artikelübersicht

Wikidata Geburtstag

10 Jahre Wikidata – Teil 1

Wikidata nähert sich seinem zehnten Geburtstag und um diesen unglaublichen Meilenstein zu feiern, möchten wir mehr über die Redakteur*innen erfahren, die Wikidata zu dem kollaborativen Projekt gemacht haben, das es heute ist. Es gibt unzählige Geschichten zu erzählen und Projekte zu beschreiben – von der gelegentlichen Bereinigung einer begrenzten Anzahl von Artikeln durch einen Mitwirkenden, über größere Wikiprojekte, die neue Datenmodelle für alle geschaffen haben, bis hin zur Zusammenarbeit mit GLAMs und kulturellen Einrichtungen.

Luca Martinelli [Sannita]

4. Oktober 2022

Dies ist der erste Teil einer zweiteiligen Serie von Blog-Beiträgen, die einige dieser Geschichten aufgreifen und den Einfallsreichtum und die Bereitschaft unserer Community-Mitglieder, zur Summe allen Wissens beizutragen, aufzeigen. Die Gründe für einen Beitrag können von Person zu Person unterschiedlich sein, aber es gibt einige gemeinsame Themen: wir sind dabei, weil wir unsere Heimatgemeinde schätzen und wollen, dass sie “auf der Landkarte erscheint”, oder weil wir uns einem bestimmten Thema verbunden fühlen und unsere Leidenschaft mit der Welt teilen möchten. Letztendlich tun wir das, was wir tun, einfach, weil wir es können und weil wir es gerne tun, auf unsere eigene Art und Weise und mit unseren eigenen Fähigkeiten. Wir freuen uns, wenn diese Geschichten bei Ihnen Anklang finden und Sie vielleicht für die nächsten zehn Jahre inspirieren.

Go to:

Seit den Anfängen dabei

Andy Mabbett, alias Pigsonthewing, ist seit 2003 ein bekannter Wikipedianer. In seiner 19-jährigen Tätigkeit als Wikimedia-Editor hat er mehr als 940.000 Bearbeitungen an 162 Projekten vorgenommen und war einer der allerersten, der Wikidata seit den Anfängen bearbeitete.

„Zuvor, etwa 2007, habe ich an ‚Mikroformatengearbeitet, einer Methode zur Markierung von Metadaten innerhalb einer Seite mit Hilfe von HTML-Klassen, um anzugeben, dass ein Textteil ein Datum, ein Name, eine Adresse, geografische Koordinaten oder was auch immer ist. Ich habe das hauptsächlich auf externen Websites gemacht, weil ich es für ein Projekt brauchte, das ich für eine Organisation durchführte. Im Jahr 2007 habe ich begonnen, diese Markup-Techniken auf englische Wikipedia-Infoboxen anzuwenden, damit Computer diese Metadaten lesen konnten.“ Mit anderen Worten: Andy machte einige der Dinge, die Wikidata ein paar Jahre später tun sollte: „Ich wusste nicht, dass zur gleichen Zeit Leute wie Denny ein Projekt planten, um Metadaten über eine Datenbank verfügbar zu machen. Aber ich schätze, wir haben beide versucht, das Gleiche auf unterschiedliche Weise zu tun.“

Wikidata kam 2012 auf den Markt, ein reiner Wissensgraph, dem in den ersten Monaten nur Wikipedia-Sitelinks hinzugefügt werden konnten. „Ich habe mich schon vor dem offiziellen Start mit Wikidata beschäftigt. Damals war es noch sehr einfach, und als wir dann die Möglichkeit hatten, Eigenschaften hinzuzufügen, habe ich zu einigen der Spezifikationen für die neuen Eigenschaften beigetragen.“ Die Arbeit an den Eigenschaften war in der Tat einer der verschiedenen Bereiche, in denen Andy einen großen Beitrag leistete: Mindestens 175 Eigenschaften wurden direkt von ihm vorgeschlagen, und zu vielen weiteren Vorschlägen gab es Kommentare und Vorschläge, um sie zu verbessern. „Ich bin natürlich nicht der Einzige, der das getan hat, ich habe mit anderen Leuten zusammengearbeitet“, wirft er ein, „aber ich habe meinen Teil dazu beigetragen, um sicherzustellen, dass das Projekt stabil ist, dass es aufgrund seiner Qualität überleben wird und dass es nicht ins Abseits gerät. Ich glaube, wir haben es in den ersten Tagen gut gelenkt. Wir haben einige vernünftige Grundregeln aufgestellt, und einige davon sind jetzt als Richtlinien niedergeschrieben. Einige andere waren eher eine Frage der Gewohnheit und der Praxis, aber jetzt können wir den Leuten sagen: „So macht ihr es“. Ich nehme an, dass man es am besten mit Entwicklung bewährter Praktikenumschreiben kann.“

In der Zwischenzeit begann Andy, wie viele andere Mitwirkende auch, den Hauptnamensraum von Wikidata zu füllen, indem er Items über Wikipedia-Artikel, die er geschrieben hatte, und Themen, die ihn interessierten, hinzufügte. Von Birminghams historischen Gebäuden über Menschen, über die er geschrieben hatte, bis hin zu einigen der GLAMs (Galerien, Bibliotheken, Archive und Museen), mit denen er zusammenarbeitete. „Ich habe das getan, um so viel Übung wie möglich mit Wikidata zu bekommen, um zu sehen, worum es geht. Und dann – fährt er fort – wurde ich durch meine GLAM-Arbeit mit einer Reihe von Massenimporten von Daten in Wikidata konfrontiert. Eine der ersten, die mir in den Sinn kommt, sind die TED-Talks. Jane Darnell und ich wurden beide von TED als ‚Wikimedians in Residencerekrutiert, und wir ermutigten Freiwillige, Wikipedia-Artikel über die Redner der TED-Konferenz zu schreiben, da viele von ihnen keinen Artikel hatten. Ein großer Teil unserer Arbeit bestand auch darin, die biografischen Daten der Redner und Details über ihre TED-Vorträge in Wikidata aufzunehmen. Dies war keine ‚Scraping from Wikipedia‘-Initiative, sondern eine der ersten, bei der die Daten durch Exportieren des Inhalts aus einer Datenbank, Reorganisation und anschließendes massenhaftes Hochladen über QuickStatements gesammelt wurden.

Viele andere Importe folgten, von ORCID bis BBC, von den britischen historischen Apfelsorten bis zu Songkick und Quora – was wahrscheinlich eines der Projekte ist, auf das Andy am meisten stolz ist, „weil es eines der größten Projekte war und es auch Auswirkungen auf ihre Website hatte“. Quora hat nämlich damit begonnen, Daten aus Wikidata zu beziehen, um seine eigene Datenontologie zu verbessern, mehr oder weniger dasselbe, was auch Soundkick getan hat. „Die andere Sache, auf die ich besonders stolz bin, war der Import der dblp-Informatikbibliografie: Ich habe mit ihnen zusammengearbeitet, um ihre Identifikatoren zu importieren und sie mit Wikidata abzugleichen, die sie dann in ihre eigene Datenbank importiert haben, so dass eine wechselseitige Verknüpfung entstand. Dadurch waren sie in der Lage, andere Daten aus Wikidata zu importieren und auch unser Projekt durch den Austausch von Kennungen und Daten zu verbessern. Ich denke, das ist unsere Stärke: Wir haben eine symbiotische Beziehung zu unseren Partnerorganisationen, die langfristig beide stärkt.“

Auf die Frage nach den nächsten zehn Jahren von Wikidata meint Andy, dass es noch Raum für Verbesserungen gibt: „Es gibt einige Funktionen, die ich gerne sehen würde, vielleicht ein Gadget oder ein Tool oder eine kleine Änderung an der Kernsoftware, die schön wären. Diese stellen keinen Fehler in Wikidata dar, die Website ist gut und nützlich wie sie ist, aber diese Dinge würden sie ein wenig besser machen.“ Natürlich gibt es auch den Wunsch, dass mehr Menschen Wikidata verstehen und nutzen: „Ich bin auf jeden Fall ein sehr starker Befürworter des Projekts. Ich finde es sehr schade, dass es in der englischen Wikipedia so wenig genutzt wird; sie könnte so viel besser sein, wenn sie Wikidata mehr nutzen würde und wenn die Mitglieder der Community ihre Themen in Wikidata einbringen würden.“

Von Namen, WikiProjekten und Workshops

Die französische Wikipedianerin Harmonia Amanda verliebte sich in Wikidata, als das Projekt begann. „Ich habe Wikidata in der ersten Woche des Bestehens zum ersten Mal bearbeitet, aber ich habe erst Anfang 2013 angefangen, wirklich etwas beizutragen – erinnert sie sich – Es hat sofort die Art und Weise verändert, wie ich mit Sitelinks gearbeitet habe. Ich erinnere mich, dass es am Anfang so leer war, aber dann sagte mir ein anderer Wikidata-Anfänger, ich glaube, es war Otourly, dass wir endlich damit beginnen könnten, die Daten stapelweise zu korrigieren, und so begannen wir, Beschreibungen und grundlegende Daten hinzuzufügen und die Wikipedia-Kategorien durchzugehen.“

Eines der ersten großen Projekte von Harmonia war eine gründliche Bereinigung der Artikel zum fiktionalen Universum des Herrn der Ringe, aber das dauerhafteste Projekt, das sie ins Leben gerufen hat, ist das Wikiprojekt Names: „Namen sind sehr, sehr, sehr kompliziert zu handhaben. Im Jahr 2013 begannen wir, einige externe Datenbanken zu importieren, die hauptsächlich westliche und englische Namen enthielten. Der Rest der Welt war einfach nicht vertreten, und das war das erste Problem, mit dem wir zu kämpfen hatten. Dann hatten wir das Problem, Daten zu modellieren, denn es gibt Menschen, die zwei Familiennamen haben können oder gar keinen. Hinzu kommen die Varianten der Namen, ihre Schreibweise und ihre ursprüngliche Schriftsprache: Stammt der Name ‚Nadia‘ von der russischen oder von der arabischen Form? Wir haben uns für die Lösung ‚eine Variante – ein Artikel entschieden, was einfach weniger problematisch ist als ein Artikel für alle Varianten!“

Aber es geht nicht nur um Bücher und Namen. Sport ist auch ein Thema, an dem Harmonia hart gearbeitet hat: „Jemand hat mich 2016 gefragt, wer zweimal hintereinander das Finale des Grand Prix im Eiskunstlauf gewonnen hat. Ich dachte ‚das ist eine einfache SPARQL-Abfrage‘, aber trotz vieler Versuche lieferten die Abfragen immer keine Ergebnisse. Ich ging zum Item einer Eiskunstläuferin, von der ich weiß, dass sie den Wettbewerb gewonnen hat, nur um festzustellen, dass es im Grunde leer war, nicht einmal Sportart: Eiskunstlauf war als Daten vorhanden! Also fing ich an, alle Kategorien auf verschiedenen Wikipedias zu durchforsten, und dann begann ich, Daten für die Ergebnisse von Wettbewerben zu modellieren. Denn man weiß ja, dass man für die Beantwortung der Frage am Anfang die Artikel der Wettbewerbe braucht, um die notwendigen Daten zu haben.“ So entstand ein neues Projekt, das auch eine Reihe von Abfragen bereitstellt, falls man bei der Pflege helfen möchte.

Unter den vielen Projekten von Harmonia gibt es auch eines für Schlittenhunderennen!

Ein weiterer wichtiger Teil von Harmonias Engagement für Wikidata waren ihre monatlichen persönlichen Workshops in Frankreich: „Leider musste ich meine Aktivitäten in den letzten drei Jahren aufgrund von COVID und anderen Problemen erheblich einschränken … aber ich habe immer noch einige Online-Workshops mit afrikanischen Gemeinschaften durchgeführt, um sie in Wikidata einzubinden. Sie leisten eine Menge guter Arbeit! Seit etwa 2014 bis zum Beginn der Pandemie habe ich jeden Monat Wikidata-Workshops veranstaltet. Ursprünglich hielt ich es für eine gute Idee, für jeden Workshop ein festes Thema zu haben, damit wir an einer bestimmten Reihe von Artikeln oder Problemen arbeiten konnten. Dann stellte ich fest, dass die Leute kamen, wenn sie konnten, und nicht, weil sie sich für das monatliche Thema interessierten. Also änderte ich meinen Plan. Ich ließ die Leute einfach kommen und jede Frage stellen, die sie hatten, und diese Frage wurde dann das Thema des Workshops. Ich glaube, ich habe vielen Leuten bei ihren Problemen mit Wikidata geholfen!“

Auf die Frage, was die Zukunft für Wikidata bereithalten könnte, wird Harmonia ernster: „Das Problem, das ich für Wikidata sehe, ist das gleiche wie bei allen Wikimedia-Projekten: Es gibt einfach zu viele Inhalte, die abgedeckt werden müssen, und die Qualität kann von Thema zu Thema sehr unterschiedlich sein, je nachdem, ob wir Redakteure haben, die auf diese Themen spezialisiert sind oder nicht. Dabei möchte ich erwähnen, dass Wikidata sehr dabei geholfen hat, viele Fehler in der Wikipedia zu bereinigen: Ich habe diese Art von Arbeit vor Wikidata gemacht und es war definitiv schwieriger als jetzt. Ich bin auch sehr besorgt über die Verwendung unserer Daten als ‚Waffen‘ – fügt sie hinzu – auch wenn es nicht per se ein Wikimedia-Problem ist, gibt es Leute im Internet, die entschlossen sind, Schaden anzurichten, und Wikidata ist meiner Meinung nach immer noch sehr anfällig für diese Art von Vandalismus. Auf der anderen Seite sehe ich stabilere Beiträge in ‚Minderheitensprachen im Internet‘, wie ich sie nenne – weil sie für diejenigen, die sie sprechen, keine Minderheitensprachen sind! Ich sehe etablierte Mitglieder der Gemeinschaft, die Workshops leiten, die Wikidata bearbeiten, die Wikidata in ihren eigenen Projekten verwenden, wie zum Beispiel Hausa. Es stimmt mich sehr hoffnungsvoll, dass wir mehr multilinguale Vielfalt erreichen, je mehr wir wachsen. Eine Befürchtung, die ich hatte, war, dass wir so viele Daten auf Englisch haben würden, dass alle anderen Sprachen aufgegeben würden, aber jetzt kann ich sagen, dass die Leute Informationen in ihren Sprachen hinzufügen und dafür sorgen, dass sie im Internet vertreten sind. Das ist großartig, das ist genau das, was wir wollten.“

Im Laufe der Jahre weiterentwickelt

Camillo Pellizzari, in den Wikimedia-Projekten als Epìdosis bekannt, steht kurz vor seiner Promotion in Altertumswissenschaften an der Scuola Normale Superiore di Pisa. Im Dezember 2012 begann er, an der italienischen Wikipedia mitzuarbeiten und in den folgenden Monaten auch an Wikidata.

„Ich habe mich sofort darauf spezialisiert, doppelte Artikel zusammenzuführen“, erinnert er sich, „vor allem solche über Kategorien. Mir wurde klar, dass das alte Interwiki-System viele potenzielle Verbindungen zwischen Projekten ausließ, vor allem zwischen Sprachen, die nicht nahe beieinander liegen. Damals gab es keine Möglichkeit, den zweiten Artikel auch als Weiterleitung zum ersten zu behalten, so dass sich schnell eine ganze Reihe von Löschanträgen ansammelten.“ Es waren so viele, dass Camillo beschloss, sich selbst als Administrator auf Wikidata vorzuschlagen, „hauptsächlich um den Löschprozess zu beschleunigen”.

Bis heute tragen laut Statistik rund 55.000 Zusammenführungen seine Unterschrift, womit Epìdosis der achte Beitragende in diesem Bereich ist. Camillo bereinigt nach wie vor doppelte Einträge, aber sein Schwerpunkt verlagerte sich im Laufe der Jahre von den Duplikaten, die aus den Projekten stammen, zu denen, die aus externen Datenbankimporten stammen. „Ich begann, diesen neuen’ Aspekt von Wikidata zu begreifen, mit anderen Worten, dass Wikidata kein Projekt mehr ist, das nur Wikipedia dient, insbesondere seit 2019. Bis dahin habe ich vor allem Importe von Wikipedia-Daten in Wikidata oder das Zusammenführen von Artikeln gemacht. Ich muss sagen, dass ich manchmal – wie er einräumt – leider immer noch Zweifel an der Qualität bestimmter Datenimporte habe, auch wenn es wirklich sehr vom Import und vom Thema abhängt.“

Camillo hält immer noch an den “alten Wikidata-Werten” fest, „vielleicht – so scherzt er – wegen meines Hintergrunds als Geschichtsstudent. Wenn ich eine Präsentation über Wikidata halte, erkläre ich immer noch, dass das Projekt als eine Möglichkeit begann, Daten aus verschiedenen Wikipedias zu zentralisieren, um sie in noch mehr Wikipedias wiederzuverwenden.“ Das hindert ihn jedoch nicht daran, die zehnjährige Entwicklung von Wikidata als äußerst positiv für das Projekt zu bewerten: „Wikidata hat sich sicherlich mit der Zeit weiterentwickelt und ich auch. Ich habe meine Arbeit auf die Interaktion mit externen Datenbanken ausgeweitet, insbesondere mit GLAM-Datenbanken, die Daten aus Wikidata in ihre eigene Datenbank übertragen wollen und umgekehrt. Ich habe den Eindruck, dass sich die Grundfunktion des Projekts nicht geändert hat, sondern lediglich sein potenzielles Betätigungsfeld auf andere Einrichtungen ausgeweitet wurde, die dasselbe tun wie Wikipedia: Sie wählen aus, welche relevanten Daten sie ihren Lesern zeigen wollen.

Apropos GLAMs: Kurz vor Beginn der Pandemie traf Camillo persönlich einen anderen Mitwirkenden, den er zufällig auf Wikidata kennengelernt hatte – ein Treffen, das zur Geburt eines ganz neuen GLAM-Projekts in Italien führte: „Ich habe Stefano Bargioni – Benutzer:Bargioni auf Wikidata – wegen seiner Bearbeitungen auf Wikidata kennen gelernt. Im wirklichen Leben ist er stellvertretender Direktor der Bibliothek der Päpstlichen Universität vom Heiligen Kreuz und er begann Wikidata zu bearbeiten, indem er die Identifikatoren seiner eigenen Bibliothek hinzufügte. Ich stolperte zufällig über seine Bearbeitungen und wir begannen uns auszutauschen. Im Januar 2020 trafen wir uns persönlich in Rom, und ich zeigte ihm Mix’n’Match und andere Magnus-Tools. Stefano verstand sofort das Potenzial, und von da an nahm unsere Zusammenarbeit Fahrt auf. Er nahm dann Kontakt zu anderen Kollegen auf, die ihrerseits den Wert einer Zusammenarbeit mit uns erkannten – so Camillo weiter – und so entstand die Gruppo MAB (MAB ist die italienische Abkürzung für Museen, Archive und Bibliotheken). In den letzten Jahren fanden fast alle Aktivitäten der Gruppe online statt, „nicht nur wegen der verschiedenen Schließungen, sondern auch, weil wir uns alle in verschiedenen Städten befinden. Nichtsdestotrotz haben wir es geschafft, einige persönliche Treffen abzuhalten, und wir planen weitere in den nächsten Monaten.“

Mit Blick auf die Zukunft wünscht sich Camillo vor allem zwei Dinge. Erstens: eine Möglichkeit, die Entwicklung von Tools und technische Änderungen einfacher zu beantragen. „Es ist enttäuschend, dass es keinen etablierten Prozess gibt, um ein Gadget oder Tool anzufordern und es von jemandem realisieren zu lassen“, bemerkt er. „Dann haben wir das Problem, dass sich bei den von der Community gewarteten Tools manchmal eine Reihe von Anfragen und Fehlern ansammeln, die nie oder nur sehr langsam bearbeitet werden.“ 

Zweitens, eine Verbesserung des so genannten „Daten-Roundtripping“: „Für mich ist es von größter Wichtigkeit, enge Partnerschaften mit allen Institutionen zu schmieden, die uns Daten geben oder geben können und die dann als Datenqualitätskontrolleure fungieren können. Im Moment fehlt es fast völlig an einem Workflow, der Korrekturen in beide Richtungen ermöglicht, insbesondere von Wikidata zurück zur ursprünglichen Datenbank, eine Funktion, die so gut wie nicht vorhanden ist. Meiner Meinung nach ist die Korrektur der Daten eines anderen genauso wichtig wie die Rückgabe der Korrektur an die ursprüngliche Quelle, da die Qualität der anderen Datenbanken der Schlüssel zur Aufrechterhaltung der Qualität von Wikidata selbst ist.“

Mehr Wissenswertes über Wikidata!

Am 29. Oktober feiert Wikidata den 10. Geburtstag! Aus diesem Anlass haben wir eine Reihe von Blogartikeln mit vielen interessanten Fakten über die Geschichte der weltweit größten freien Wissensdatenbank und ihrer einzigartigen Community veröffentlicht:

Teil 2 über die Menschen, die Wikidata zu dem kollaborativen Projekt gemacht haben, das es heute ist.

Mehr über den Einfallsreichtum der Wikidata-Community und ihre Tools und Hacks.

Teil 1 über den Einfluss von Wikidata und den Mitwirkenden bei der Förderung der Wikimedia-Mission.

Teil 2 über den Einfluss von Wikidata und den Mitwirkenden bei der Förderung der Wikimedia-Mission.

Wikidata hat die Marke von 100 Millionen Items überschritten. Lydia Pintscher spricht über die Bedeutung dieses Meileinsteins.

Vor zehn Jahren wurde der Grundstein für Wikidata gelegt. Lydia Pintscher über die Anfänge.

Kommentare

  1. Walter
    6. Oktober 2022 um 14:32 Uhr

    Der Link unter dem Bild am Ende Teil 1 ’10 Jahre Wikidata – Teil 2′ verlinkt zu sich selbst.

    Spannender Artikel.

    Mir fehlt Schulungsmaterial zum Einstieg in Wikidata. Da wurde ich nie fündig. Die Online Tutorials etc sind mir bekannt.

    1. Corinna Schuster
      7. Oktober 2022 um 11:14 Uhr

      Hallo Walter,

      danke für den Hinweis. Der Link ist korrigiert.

      Die Online-Tutorials sind tatsächlich schon ein guter Start. Auf unserer Mitmachen-Seite haben wir noch mehr Inhalte: https://www.wikimedia.de/mitmachen/wikidata/

      Oder wie wäre es hiermit: https://www.learnwikidata.net/.

      Liebe Grüße
      Corinna

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert