zurück

Lexikographische Daten in Wikidata: Wörter, Wörter, Wörter

Sprache macht unsere Welt schön, vielfältig und kompliziert. Wikidata ist ein mehrsprachiges Projekt, das die mehr als 300 Sprachen der Wikimedia-Projekte bedient. Diese Mehrsprachigkeit im Kern von Wikidata bedeutet, dass von Anfang an jedes Element zu einem Wissensgegenstand und jede Eigenschaft, die dieses Element beschreibt, eine Bezeichnung in einer der unterstützten Sprachen tragen kann. Dadurch wird Wikidata zu einer polyglotten Wissensdatenbank, die die Sprache ihrer Benutzerinnen und Benutzer spricht. Die Erweiterung von Wikidata um Sprachdaten ist eine spannende neue Anwendung.
Photo: https://pixabay.com/vectors/hello-languages-word-cloud-foreign-3791381/

Jens Ohlig

25. März 2019

Während strukturierte Daten über die Summe allen menschlichen Wissens Maschinen und künstlicher Intelligenz helfen können, die Welt zu verstehen, können sprachliche Daten in Wikidata ihnen helfen zu verstehen, wie Menschen ihr Wissen mit Wörtern ausdrücken. Mit all den Sprachkombinationen, die wir in Wikimedia-Projekten haben, eröffnen sich ganz neue Möglichkeiten: Übersetzungen aus dem Estnischen ins Maltesische oder von Tamil nach Zulu — obwohl ein gedrucktes Wörterbuch für diese Kombinationen wahrscheinlich nicht existiert, kann es mit strukturierten Daten über Sprachen generiert werden.

Datenobjekte in Wikidata beschreiben bislang einen Gegenstand, eine Person oder ein Konzept unserer Welt. Was Wikidata bis vor kurzem nicht hatte, war die sprachliche Seite der Dinge: die Wörter, um diese Objekte so zu beschreiben, wie sie in einer Sprache erscheinen, ihre grammatikalischen Formen und Bedeutungen. In den letzten Monaten haben wir Funktionen in Wikidata und der Software Wikibase entwickelt, die es ermöglichen, sprachliche Daten zu beschreiben. Wir nennen dies lexikographische Daten.

Lexikographische Daten wurden im Mai 2018 eingeführt und sind nun seit fast einem Jahr im Einsatz. Zeit, einen genaueren Blick darauf zu werfen.

Lexikographische Daten bedeuten genau das: Daten, die in einem Lexikon vorkommen können. Womit wir es hier zu tun haben, ist die linguistische Seite der Wörter. Da das Wort “Wort” bereits sehr überladen ist, verwenden wir den sprachwissenschaftlichen Begriff Lexem — ein Lexem ist ein Eintrag in einem Wörterbuch.

Lexeme unterscheiden sich ein wenig von anderen Entitäten in Wikidata und haben daher einen eigenen Namensraum. Ihre Entitätsnummern beginnen nicht mit einem Q — sie beginnen mit einem L. Unter https://www.wikidata.org/wiki/Lexeme:L1 ist das erste Lexem in Wikidata zu finden, das sumerische Wort für “Mutter”. Da das Sumerische eine der ältesten Sprachen ist, die wir kennen, und das Wort für Mutter eines der grundlegendsten Wörter in jeder Sprache ist, ist es gut möglich, dass es sich dabei um eine der frühesten sprachlichen Äußerungen der Menschheitsgeschichte handelt.

Jedes Lexem hat Bedeutungen, die anzeigen, was ein Wort in verschiedenen Sprachen bedeutet. Es gibt auch Formen, die beschreiben, wie sich das Lexem grammatikalisch ändern kann — etwa die 15 Fälle, in denen ein Substantiv in der finnischen Sprache verwendet werden kann.

Jedes Lexem steht für einen Eintrag in nur einer Sprache. Das deutsche Wort “Apfel”, das englische “apple” und das französische “pomme” sind verschiedene Lexeme (L819, L3257 und L15282). Da Wikidata eine verknüpfte Datenbank ist, kann es sogar auf ein Element mit einer Q-Id verweisen, die das Konzept dieses Lexems repräsentiert. Weitere Informationen zum Datenmodell für Lexeme finden sich auf der Dokumentationsseite.

In einigen Sprachen können Lexeme viele Formen annehmen. Für die Eingabe gibt es Hilfe: Wikidata Lexeme Forms ist ein Werkzeug, um ein Lexem mit einem Satz von Formen zu erstellen, z. B. die Deklinationen eines Substantivs oder die Konjugationen eines Verbs.

Um Lexemen Bedeutungen hinzuzufügen gibt es auch ein praktisches Werkzeug: Wikidata Senses zeigt neben der Liste der Sprachen und der Anzahl der fehlenden Bedeutungen ein zufälliges Lexem, das eine Bedeutung benötigt. Einfach mal beim Warten an der  Bushaltestelle ausprobieren, so schnell kann man zum Freien Wissen beitragen!

Natürlich können lexikographische Daten auch abgefragt werden. Ein interessantes Beispiel für die Vernetzungen, die Lexeme in Wikidata ermöglichen, ist diese Abfrage von Finn Årup Nielsen, die nach Personen mit Nachnamen sucht, die der Vergangenheitsform eines dänischen Verbs entsprechen.

Mit Abfragen können auch tolle Anwendungen erstellt werden. Einer der häufigsten Gründe für Kopfschmerzen bei Deutschlernenden sind die Artikel von Substantiven: der, die, das. Sie folgen allerdings keiner wirklichen Logik, was meist bedeutet, dass Artikel auswendig gelernt werden müssen. Wie Mark Twain in seinem klassischen Aufsatz “The Awful German Language” bemerkte: “Jedes Hauptwort hat einen Artikel; aber da ist kein System und Sinn in der Anwendung desselben, so dass nichts übrig bleibt, als jeden Artikel zu jedem Wort besonders auswendig zu lernen. So hat z. B. in der deutschen Sprache ein junges Mädchen kein Geschlecht, während eine Steckrübe ein solches hat. Welche maßlose Hochachtung zeigt das einer Rübe gegenüber, welche Geringschätzung von einem Mädchen!”

Zum Glück gibt es ein Spiel, das lexikographische Daten in Wikidata verwendet, um das Auswendiglernen einfacher zu machen: DerDieDas. Wer schafft 10 zufällig ausgewählte deutsche Substantive mit dem richtigen Artikel? Für diejenigen, die bereits Deutsch sprechen, gibt es auch eine französische und eine dänische Version.

Wikidata verfügt derzeit über 43440 Lexeme in 315 verschiedenen Sprachen, Dialekten oder Schriften (14762 Lexeme auf Englisch, 10334 auf Französisch, 3039 auf Schwedisch, 2651 auf Nynorsk, 2095 auf Polnisch und 2027 auf Deutschsiehe vollständige Liste). Das ist zwar bereits ein guter Anfang, aber es ist eindeutig nur der erste Schritt. Die Erforschung lexikographischer Daten auf Wikidata kann also beginnen —  zusammen können wir einen neuen Fundus für Freies Wissen an Sprachdaten aufbauen!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert