Wikimedia Commons ist ein mehrsprachiges Projekt — theoretisch. Praktisch ist es leider sehr schwer, dort irgendetwas zu finden, wenn man kein englisch spricht: das Kategoriesystem ist englisch und die Bildbeschreibungen zumeist auch. Und zu hoffen, dass alle Beschreibungen irgendwann in zumindest 10 Sprachen vorliegen, ist wohl illusorisch. Wie könnte es also möglich werden, mit einer Suchanfrage auf Deutsch oder Italienisch oder gar Urdu Bilder zu finden?

Möglich wäre das mithilfe eines so genannten „multilingualen Thesaurus„: er gibt an, welche Wörter in welcher Sprache welche Bedeutungen haben. Oder umgekehrt, welche Bezeichnungen es für eine Sache in verschiedenen Sprachen gibt.

Solch ein Thesaurus lässt sich aus Wikipedia extrahieren — darüber habe ich meine Diplomarbeit geschrieben. Das Resultat war WikiWord, ein Programm, das Wikipedia-Dumps in verschiedenen Sprachen einließt, und daraus einen Thesaurus erzeugt, der unter anderem dazu verwendet werden kann, Suchanfragen über Sprachgrenzen hinweg zu verarbeiten.


Für Wikimedia Deutschland bin ich im Augenblick dabei, WikiWord so zu erweitern, dass es mehr Sprachen verarbeiten kann, Interwiki-Links zwischen Kategorien berücksichtigt und Commons mit einbezieht, so dass es für eine Bildersuche verwendet werden kann. Das Resultat soll am Ende so aussehen:

  • „Pferd“ wird als Suchbegriff eingegeben
  • Das System liefert eine Liste der möglichen Bedeutungen von „Pferd“ (das Tier, das Sportgerät, die Schachfigur, usw.<)  jeweils mit ein paar Beispielbildern.
  • Eine der Bedeutungen wird ausgewählt
  • Das System zeigt mehr Bilder für diese Bedeutung.

Zusätzlich kann der Thesaurus auch die Navigation in einem Themenbereich erlauben, ähnlich wie die Kategoriestruktur: nach „oben“ zu allgemeineren und nach „unten“ zu spezielleren Thema, sowie „seitlich“ zu ähnlichen bzw. verwandten Themen.

Das gleiche System lässt sich natürlich auch zur Navigation in einer Wikipedia oder zwischen verschiedenen Wikipedias verwenden.

Ich denke, im März wird es den ersten Prototyp geben. Wäre toll, wenn ich das beim Entwicklertreffen schon zeigen könnte.