Sprechen Sie Daten? Wikidata als universelle Sprache des freien Internets

Photo: https://pixabay.com/vectors/hello-languages-word-cloud-foreign-3791381/

Sprache ist ein wichtiges Instrument, um Wissen zu verbreiten, Gemeinschaft zu schaffen und kulturelles Erbe zu bewahren. Auch in der Technologie ist Sprache zentral, um Informationen zu speichern und zu teilen, sei es durch Wikis, soziale Medien oder in der Anwendung von Sprachassistenten. Jedoch sind gerade kleinere Sprachen zunehmend bedroht. Wikidata hilft inner- und außerhalb der Wikipedia, sprachliche Vielfalt zu bewahren und den Wissensaustausch zu stärken.

WMDE allgemein

20. Februar 2020

Diesen Beitrag gibt es auch auf englisch.

Die Wikipedia gibt es aktuell in 309 verschiedenen Sprachversionen. Und es gibt die freie Wissensdatenbank Wikidata. Mit derzeit über 77 Millionen Datensätzen ist Wikidata die weltweit größte Sammlung frei editierbarer Daten. Sie beliefert nicht nur die Wikipedia und zahlreiche andere Plattformen, Programme und Apps mit Daten – Wikidata hilft vor allem auch, kleinere Sprachen zu stärken. Dazu gehören z.B. die romanische Sprache Okzitanisch oder das verwandte Katalanisch.

Wikidata als Datenquelle für Sprachanwendungen

Gerade für seltene Sprachen werden oft keine Sprachtools- und -programme entwickelt, da dies für Unternehmen nicht rentabel ist. Hier hilft Wikidata, denn die Datenbank ist offen und kostenlos. Das ermöglicht kleineren Communitys, ihre eigenen Apps und Programme in ihrer Sprache zu erstellen und die Daten in bestehende Anwendungen zu integrieren.

Lingua Libre zum Beispiel ist eine Bibliothek mit Audio-Aufzeichnungen von Wörtern, Sprichwörtern oder Sätzen, die von allen aufgenommen werden können. Die Website nutzt Wikibase sowie Daten aus Wikidata. Bisher konnten dank der 128 aktiven Sprecherinnen und Sprecher über 100.000 Audiodateien in 46 Sprachen gesammelt werden.

Ein weiteres schönes Beispiel: Egunean Behin (Einmal am Tag) ist eine Smartphone-App auf Baskisch, die Quizzes und Quizfragen anbietet. Die App verwendet Daten von Wikidata, Wikipedia und Wikimedia Commons. Sie hilft dabei, regionale und sprachliche Kenntnisse hervorzuheben und wird von jedem zehnten baskischen Sprecher verwendet.

Mehrsprachigkeit durch Daten

Wikidata hat das klare Ziel, mehr Menschen mehr Zugang zu mehr Wissen zu verschaffen. Sprache ist dabei ein entscheidendes Werkzeug, um interkulturelles Verständnis zu fördern. Lydia Pintscher ist Produktmanagerin von Wikidata und erklärt, warum sprachliche Diversität auch in der Entwicklung von digitaler Technologie zentral ist: „Sprache ist ein wichtiger Teil zur Schaffung einer vielfältigen Community. Mehrsprachigkeit ist besonders wichtig, da immer mehr Bereiche unseres Lebens von Technologie und Interaktion durch Sprache abhängen. Wir bei Wikidata wollen niemanden zurücklassen, weil er eine andere Sprache spricht.“

Sprache innerhalb der Wikipedia

Der wohl bekannteste Ort, an dem Daten aus Wikidata verwendet werden, ist Wikipedia. So kommt zum Beispiel der Inhalt der Infoboxen aus der freien Wissensdatenbank. Wenn an einer Stelle die Informationen geändert werden, wird dies direkt in alle anderen Sprachen übertragen. Das erleichtert die Bearbeitung der Seiten, da die Redakteure die Artikel in den verschiedenen Sprachen nicht manuell aktualisieren müssen. Außerdem können die Daten auch direkt im Artikel durch Vorlagen verwendet werden, wie in diesem baskischen Beispiel und durch Platzhalter für Artikel, die z.B. in der walisischen Wikipedia verwendet werden.

Lexeme: eine neue Form der Daten- und Sprachbeziehung

Seit 2018 speichert Wikidata auch einen neuen Datentyp: Wörter, die in vielen Sprachen beschrieben werden können. Bei diesen Informationen handelt es sich um lexikographische Daten. Lexeme sind die konkreten Datenpunkte in diesen lexikographischen Daten. Mit all den Sprachkombinationen, die es in Wikimedia-Projekten gibt, eröffnen sich so neue Möglichkeiten: Übersetzungen von einer Sprache in eine andere werden möglich, obwohl es für diese Sprachen kein gedrucktes Wörterbuch gibt. Mehr über das Datenmodell gibt es auf der Dokumentationsseite und weitere Infos zu lexikographische Daten gibt es in diesem Blogbeitrag.

#Wikidata

Digitale Stolpersteine – Wie die Wiki-Community Erinnerungskultur voranbringt

Wikidata

Mit der Power von Wikidata: Drei Anwendungs-Highlights von den Data Reuse Days

Lydia Pintscher erhält einen European Open Source Award 2025 in der Kategorie Advocacy & Awareness

Wikidata

Open Source Award für Wikidata – Interview mit Preisträgerin Lydia Pintscher

Wikidata

Cookie	Typ	Dauer	Beschreibung
cli_user_preference			Dieses Cookies speichert, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine personenbezogenen Daten.
cookielawinfo-checkbox-necessary		1 year	Zustimmung der Kategorie "Essenziell".
CookieLawInfoConsent		1 year	Dieses Cookies speichert, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine personenbezogenen Daten.
viewed_cookie_policy	ständig	1 Stunde	Dieses Cookies speichert, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine personenbezogenen Daten.

Cookie	Typ	Dauer	Beschreibung
cookielawinfo-checkbox-einstellungen	0	1 year	Zustimmung der Kategorie "Einstellungen"
pll_language	0	1 year	Das Cookie speichert den Sprachcode der zuletzt besuchten Seite.

Cookie	Typ	Dauer	Beschreibung
_pk_id.1.64ac	0	1 year	Cookie von Matomo
_pk_ses.1.64ac	0	30 minutes	Cookie von Matomo
cookielawinfo-checkbox-matomo		1 year	Zustimmung der Kategorie "Matomo"

Cookie	Typ	Dauer	Beschreibung
_pk_id.1.64ac	0	1 year	Cookie von Matomo
_pk_ses.1.64ac	0	30 minutes	Cookie von Matomo
cookielawinfo-checkbox-matomo-und-heatmap		1 year	Zustimmung der Kategorie "Matomo und Heatmap"

Sprechen Sie Daten? Wikidata als universelle Sprache des freien Internets

Wikidata als Datenquelle für Sprachanwendungen

Mehrsprachigkeit durch Daten

Sprache innerhalb der Wikipedia

Lexeme: eine neue Form der Daten- und Sprachbeziehung

Verwandte Artikel

Digitale Stolpersteine – Wie die Wiki-Community Erinnerungskultur voranbringt

Mit der Power von Wikidata: Drei Anwendungs-Highlights von den Data Reuse Days

Open Source Award für Wikidata – Interview mit Preisträgerin Lydia Pintscher

Sprachlücken überbrücken: Wie Wikidata Sprachen im Internet fördert

Schreibe einen Kommentar Antworten abbrechen

DSGVO Hinweis