Bilder suchen und finden, auch auf Deutsch

Wikimedia Commons ist ein mehrsprachiges Projekt — theoretisch. Praktisch ist es leider sehr schwer, dort irgendetwas zu finden, wenn man …

  • Daniel Kinzler
  • 11. Februar 2009

Wikimedia Commons ist ein mehrsprachiges Projekt — theoretisch. Praktisch ist es leider sehr schwer, dort irgendetwas zu finden, wenn man kein englisch spricht: das Kategoriesystem ist englisch und die Bildbeschreibungen zumeist auch. Und zu hoffen, dass alle Beschreibungen irgendwann in zumindest 10 Sprachen vorliegen, ist wohl illusorisch. Wie könnte es also möglich werden, mit einer Suchanfrage auf Deutsch oder Italienisch oder gar Urdu Bilder zu finden?

Möglich wäre das mithilfe eines so genannten „multilingualen Thesaurus„: er gibt an, welche Wörter in welcher Sprache welche Bedeutungen haben. Oder umgekehrt, welche Bezeichnungen es für eine Sache in verschiedenen Sprachen gibt.

Solch ein Thesaurus lässt sich aus Wikipedia extrahieren — darüber habe ich meine Diplomarbeit geschrieben. Das Resultat war WikiWord, ein Programm, das Wikipedia-Dumps in verschiedenen Sprachen einließt, und daraus einen Thesaurus erzeugt, der unter anderem dazu verwendet werden kann, Suchanfragen über Sprachgrenzen hinweg zu verarbeiten.


Für Wikimedia Deutschland bin ich im Augenblick dabei, WikiWord so zu erweitern, dass es mehr Sprachen verarbeiten kann, Interwiki-Links zwischen Kategorien berücksichtigt und Commons mit einbezieht, so dass es für eine Bildersuche verwendet werden kann. Das Resultat soll am Ende so aussehen:

Zusätzlich kann der Thesaurus auch die Navigation in einem Themenbereich erlauben, ähnlich wie die Kategoriestruktur: nach „oben“ zu allgemeineren und nach „unten“ zu spezielleren Thema, sowie „seitlich“ zu ähnlichen bzw. verwandten Themen.

Das gleiche System lässt sich natürlich auch zur Navigation in einer Wikipedia oder zwischen verschiedenen Wikipedias verwenden.

Ich denke, im März wird es den ersten Prototyp geben. Wäre toll, wenn ich das beim Entwicklertreffen schon zeigen könnte.

  1. Wat et nich allet jeben kann. Wow.

    Kommentar von Marcus Cyron am 11. Februar 2009 um 16:01

  2. Ganz große Klasse! Bin schon gespannt auf den Prototypen.

    Kommentar von fschulenburg am 11. Februar 2009 um 20:54

  3. Großartiges Projekt, es gibt mit Sicherheit weit über die Grenzen von Wikipedia/Wikimedia hinaus noch Nutzer eines solchen Datenschatzes.

    Kommentar von Mathias Schindler am 11. Februar 2009 um 22:42

  4. Wirklich großartig! Ich kann meinen Vorschreibern nur zustimmen.

    Kommentar von Cethegus am 11. Februar 2009 um 23:24

  5. Das klingt super! Allein die Vorstellung, nicht erst den fremdsprachigen Begriff babelfishen zu müssen, um dann doch nicht das passende Bild zu finden, macht mich richtig neugierig.

    Kommentar von lyzzy am 11. Februar 2009 um 23:50

  6. Kann eigentlich die Google-Bildersuche so etwas? Bin sehr gespannt auf das Ergebnis. Vielleicht fühlt sich einer der Mitlesenden auch angesprochen, den Suchindex von Mayflower ( http://toolserver.org/~tangotango/mayflower/advanced.php?j=1), der einzig vernünftigen Bildersuchmaschine auf Commons, endlich zu aktualisieren, oder die Aktualisierung zu veranlassen. Danke im Voraus.

    Kommentar von Longbow4u am 12. Februar 2009 um 12:39

  7. Gibt es irgendwo noch SQL opder SKOS-Dumps ( ggf. auch Teile)? Die unter http://brightbyte.de/page/WikiWord angegebenen Links funktionieren nicht mehr.

    Kommentar von Jakob am 14. Februar 2009 um 03:19

  8. @jakob: unter http://brightbyte.de/DA/ gibt es rdf/skos und sql für einige Teile. Einen vollen RDF-Dump habe ich im Moment nicht zur Verfügung, aber ich habe das gesamte SQL auf dem Toolserver und kann das bei bedarf verfügbar machen.

    Kommentar von Daniel am 14. Februar 2009 um 15:16

  9. […] nur darum freue ich mich auf die Arbeit von Daniel. Tags: Interwikilinks, Suche, […]

    Pingback von Heavy Metal auf Finnisch « Weiterführende Literatur am 18. Februar 2009 um 00:09

  10. Wann und wo kann man dann den Prototyp testen, das hört sich ja wirklich vielversprechend an?

    Kommentar von Tobias am 5. März 2009 um 20:39

  11. @tobias: naja, „wenn er fertig ist“ ;-) Ich werde dann nochmal was ins blog schreiben.

    Kommentar von Daniel am 6. März 2009 um 00:11

  12. Wow! hört sich echt toll an!
    Wo erfahre ich mehr dazu?

    Kommentar von Thomas LOhninger am 30. März 2009 um 09:25

  13. […] alle Projekten in den Genuß der neuen Features kommen. Ich selbst habe unter anderem noch einmal WikiWord (Notizen) vorgestellt, das uns bald eine sprachunabhängige Suche nach Bildern auf Commons erlauben […]

    Pingback von Wikimedia Blog : Rückblick auf das Entwicklertreffen am 7. April 2009 um 22:41

  14. […] can be decentralized and shared. Exciting projects like Wikimedia Germany’s investment in multilingual search (German link; see Google Translation) are already underway, so hopefully over the next year, […]

    Pingback von Wikimedia blog » Blog Archive » Ford Foundation Awards $300K Grant for Wikimedia Commons am 2. Juli 2009 um 03:46

Die Kommentare sind geschlossen.