WMDE allgemein
20. Februar 2020
Diesen Beitrag gibt es auch auf englisch.
Die Wikipedia gibt es aktuell in 309 verschiedenen Sprachversionen. Und es gibt die freie Wissensdatenbank Wikidata. Mit derzeit über 77 Millionen Datensätzen ist Wikidata die weltweit größte Sammlung frei editierbarer Daten. Sie beliefert nicht nur die Wikipedia und zahlreiche andere Plattformen, Programme und Apps mit Daten – Wikidata hilft vor allem auch, kleinere Sprachen zu stärken. Dazu gehören z.B. die romanische Sprache Okzitanisch oder das verwandte Katalanisch.
Wikidata als Datenquelle für Sprachanwendungen
Gerade für seltene Sprachen werden oft keine Sprachtools- und -programme entwickelt, da dies für Unternehmen nicht rentabel ist. Hier hilft Wikidata, denn die Datenbank ist offen und kostenlos. Das ermöglicht kleineren Communitys, ihre eigenen Apps und Programme in ihrer Sprache zu erstellen und die Daten in bestehende Anwendungen zu integrieren.
Lingua Libre zum Beispiel ist eine Bibliothek mit Audio-Aufzeichnungen von Wörtern, Sprichwörtern oder Sätzen, die von allen aufgenommen werden können. Die Website nutzt Wikibase sowie Daten aus Wikidata. Bisher konnten dank der 128 aktiven Sprecherinnen und Sprecher über 100.000 Audiodateien in 46 Sprachen gesammelt werden.
Ein weiteres schönes Beispiel: Egunean Behin (Einmal am Tag) ist eine Smartphone-App auf Baskisch, die Quizzes und Quizfragen anbietet. Die App verwendet Daten von Wikidata, Wikipedia und Wikimedia Commons. Sie hilft dabei, regionale und sprachliche Kenntnisse hervorzuheben und wird von jedem zehnten baskischen Sprecher verwendet.
Mehrsprachigkeit durch Daten
Wikidata hat das klare Ziel, mehr Menschen mehr Zugang zu mehr Wissen zu verschaffen. Sprache ist dabei ein entscheidendes Werkzeug, um interkulturelles Verständnis zu fördern. Lydia Pintscher ist Produktmanagerin von Wikidata und erklärt, warum sprachliche Diversität auch in der Entwicklung von digitaler Technologie zentral ist: „Sprache ist ein wichtiger Teil zur Schaffung einer vielfältigen Community. Mehrsprachigkeit ist besonders wichtig, da immer mehr Bereiche unseres Lebens von Technologie und Interaktion durch Sprache abhängen. Wir bei Wikidata wollen niemanden zurücklassen, weil er eine andere Sprache spricht.“
Sprache innerhalb der Wikipedia
Der wohl bekannteste Ort, an dem Daten aus Wikidata verwendet werden, ist Wikipedia. So kommt zum Beispiel der Inhalt der Infoboxen aus der freien Wissensdatenbank. Wenn an einer Stelle die Informationen geändert werden, wird dies direkt in alle anderen Sprachen übertragen. Das erleichtert die Bearbeitung der Seiten, da die Redakteure die Artikel in den verschiedenen Sprachen nicht manuell aktualisieren müssen. Außerdem können die Daten auch direkt im Artikel durch Vorlagen verwendet werden, wie in diesem baskischen Beispiel und durch Platzhalter für Artikel, die z.B. in der walisischen Wikipedia verwendet werden.
Lexeme: eine neue Form der Daten- und Sprachbeziehung
Seit 2018 speichert Wikidata auch einen neuen Datentyp: Wörter, die in vielen Sprachen beschrieben werden können. Bei diesen Informationen handelt es sich um lexikographische Daten. Lexeme sind die konkreten Datenpunkte in diesen lexikographischen Daten. Mit all den Sprachkombinationen, die es in Wikimedia-Projekten gibt, eröffnen sich so neue Möglichkeiten: Übersetzungen von einer Sprache in eine andere werden möglich, obwohl es für diese Sprachen kein gedrucktes Wörterbuch gibt. Mehr über das Datenmodell gibt es auf der Dokumentationsseite und weitere Infos zu lexikographische Daten gibt es in diesem Blogbeitrag.