Many Faces of Wikibase: Lingua Libre macht [ˈʃpʁaːxə] hörbar

Sprachen und Mehrsprachigkeit waren schon immer ein wichtiger Bestandteil der Wikimedia-Projekte. Das internationale Freiwilligen-Projekt Lingua Libre soll nun Sprachen und ihren Klang als strukturierte Daten frei verfügbar zu machen. WMDE’s Jens Ohlig hat mit Antoine Lamielle, Hauptentwickler von Lingua Libre, über das Projekt und seine Verwendung von Wikibase gesprochen.

  • Jens Ohlig
  • 14. Dezember 2018

MediaWiki, die freie und Open-Source-Software hinter Wikipedia und ihren Schwesterprojekten, ist weithin bekannt und wird außerhalb des Wikimedia-Ökosystems verwendet, um tausende Wikis weltweit zu betreiben. Weniger Menschen wissen dagegen, dass Wikibase, die Software hinter Wikidata, der Wissensdatenbank von Wikimedia, ebenfalls als freie und offene Software verfügbar und für Datenbanken und verlinkte offene Datenprojekte einsetzbar ist. Wir wollen Organisationen aufzeigen, die Wikibase verwenden und veröffentlichen als Wikimedia Foundation und Wikimedia Deutschland eine Reihe von Blogposts unter dem Titel „Many Faces of Wikibase“.

Sprachen und Mehrsprachigkeit waren schon immer ein wichtiger Bestandteil der Wikimedia-Projekte. Schließlich sind Wikimedia-Projekte in fast 300 Sprachen verfügbar. Die meisten dieser Sprachen sind jedoch als eigener Wissensschatz nur in ihrer schriftlichen Form verfügbar. Das Projekt Lingua Libre hat es sich um Ziel genommen, dies zu ändern und den Klang einer Sprache und die Aussprache ihrer Wörter in Form strukturierter Daten frei verfügbar zu machen. WMDE’s Jens Ohlig hat Antoine Lamielle, Hauptentwickler von Lingua Libre, zu seinem Projekt und seiner Verwendung von Wikibase interviewt.

 

Jens: Könntest du dich kurz vorstellen? Was hat dich zu den Wikimedia-Projekten gebracht?

Antoine: Ich bin Benutzer:0x010C, alias Antoine Lamielle, Wikimedia-Freiwilliger seit 2014. Ich habe eher aus Versehen mit dem Editieren begonnen, überzeugt von der Philosophie des globalen freien Wissensaustauschs. Mit der Zeit bin ich ein Sysop– und Checkuser (ein Moderator) in der französischen Wikipedia geworden und ein regelmäßiger “Commonist”, der an vielen technischen Sachen im Wiki arbeitet (Bots, Gadgets, Vorlagen, Module verwalten und entwickeln). Seit Mitte 2017 bin ich auch Architekt und Hauptentwickler von Lingua Libre.

Außerhalb des Wikiversums bin ich ein französischer Software-Ingenieur, der sich fürs Kajaken, Fotografie und Linguistik begeistert.

Jens: Erzähl uns mehr über Lingua Libre! Worum geht’s dabei? Welche Geschichte steht hinter dem Projekt? Wo steht ihr im Moment?

Antoine: Lingua Libre ist eine Verzeichnis mit kostenlosen Audio-Ausspracheaufzeichnungen, das jeder Mensch mit wenigen Worten, einigen Sprichwörtern, einigen Sätzen usw. vervollständigen kann. Diese Klänge werden vor allem Wikimedia-Projekte wie Wikipedia oder Wiktionary bereichern, aber auch Spezialisten für Liguistik in ihrer Forschung unterstützen.

Es ist ein ziemlich neues Projekt, das seine Wurzeln im französischen Wiki-Projekt „Langues de France“ (<https://fr.wikipedia.org/wiki/Projet:Langues_de_France>) hat, dessen Ziel es ist, gefährdete Regionalsprachen zu fördern und zu erhalten. Wir stellten damals fest, dass nur 3% aller Wiktionary-Einträge eine Audioaufnahme hatten. Das war ziemlich übel, denn das ist ja ein sehr wichtiges Element! Jeder, der die IPA-Notation nicht versteht (und das betrifft einen großen Teil der Weltbevölkerung), weiß damit, wie ein Wort auszusprechen ist. Von dort wurde die erste Version von Lingua Libre geboren, einem Online-Tool zum Aufzeichnen von Wortlisten.

Aufnahme baskischer Wörter bei der Wikimania in Montreal 2017. Foto: Xenophon75, Enregistrement de mots en langue basque avec Lingua Libre (1), CC BY-SA 4.0

Heutzutage ist es ein vollständig automatisierter Prozess, mit dem die Aussprache auf Commons aufgezeichnet, hochgeladen und auf Wikidata und Wiktionary wiederverwendet werden kann. Wir können bis zu 1200 Aufnahmen pro Stunde hochladen — mit dem manuellen Vorgang waren das früher eher so 80 pro Stunde!

Jens: Was hat dich zu Wikibase gebracht? Warum passt es gut zu Lingua Libre?

Antoine: Die erste Version von Lingua Libre sammelte Metadaten für jeden Audiodatensatz, wurde jedoch in einer traditionellen relationalen Datenbank gespeichert und konnte nicht gut wiederverwendet werden. Wir wollten diese “schlafenden Metadaten” verbessern, indem wir sie frei durchsuchbar und anreicherbar machen. Wir wollten aber auch Flexibilität beim einfachen Hinzufügen neuer Metadaten gewinnen. Wikibase, ausgestattet mit einem SPARQL-Endpunkt, bot uns all diese Möglichkeiten und all das in einer bekannten Umgebung für Wikimedianerinnen und Wikimedianer! Zusammen mit anderen Vorteilen von MediaWiki – dem Versionsverlauf, um nur einen zu nennen – war die Wahl klar.

Das Interface von Lingua Libre. Foto: 0x010C, LinguaLibreV2 RecordWizard 03, CC BY-SA 4.0

Wir speichern in unserer Wikibase-Instanz drei verschiedene Arten von Elementen: Sprachen (einschließlich Dialekte), die direkt aus Wikidata importiert werden; weiterhin Daten zu den Sprecherinnen und Sprechern, die Informationen zu jeder Person enthalten, die eine Aufnahme durchführt (welches Niveau hat er oder sie in den Sprachen, die sie oder er spricht, und wo wurden sie gelernt, Akzent usw.); und schließlich die Aufnahmen selbst. Diese werden vom Lingua Libre-Rekorder transparent für jede Aufzeichnung erstellt. Dabei wird die Datei auf Wikimedia Commons mit Metadaten (Sprache, Transkription, Datum der Aufnahme, Wikipedia-Artikel / Eintrag in Wiktionary / Wikidata-Element usw.) verlinkt, aber auch auf das Datenobjekt des Autors oder der Autorin.

Jens: Habt ihr irgendetwas besonders Positives über Wikibase als Software gelernt? Gab es irgendwelche Hürden, die ihr überwinden musstet? Gibt es etwas, das verbessert werden kann?

Antoine: Die Verwendung derselben Software wie bei Wikidata hat es uns leicht gemacht, mit diesem Projekt Brücken zu bauen und diese unglaubliche Fülle strukturierter Daten zu nutzen. Damit unsere Sprecherinnen und Sprecher beispielsweise beschreiben können, wo sie eine Sprache gelernt haben, verwenden wir direkt Wikidata-IDs. Dies hat bei unserer Verwendung viele Vorteile. Wenn wir also eine neue Benutzerin oder einen neuen Benutzer fragen, wo sie eine Sprache gelernt haben, haben sie völlige Freiheit hinsichtlich der Genauigkeit, die sie angeben möchten (Land, Region, Stadt, sogar Nachbarschaft oder Schule, wenn sie dies wünschen), meistens mit Labels, die schon in ihre eigene Sprache übersetzt sind.

Backstage können wir somit die Daten von Wikidata und Lingua Libre über föderierte SPARQL-Abfragen mischen und wiederverwenden (z. B. um alle in einem Land erstellten Datensätze zu durchsuchen oder um regionale Variationen der Aussprache desselben Wortes abhören zu können) und all das, ohne die Kosten, Einschränkungen und den Aufwand für die Pflege einer eigenen Geodaten-Datenbank!

Dies ist jedoch derzeit eher eine Reihe von Hacks als eine perfekte Lösung. Wikidata-Elemente werden derzeit als externe Bezeichner in unserer Wikibase-Instanz gespeichert. Die gesamte Benutzeroberfläche / UX hängt von clientseitigen AJAX-Aufrufen der Wikidata-API ab. Das Ideal wäre, mehrere Wikibases föderieren zu können, die es ihnen ermöglichen, Elemente nativ zwischen ihnen zu teilen.