zur Artikelübersicht

Wikipedia als Datenbasis: Das RENDER-Projekt

WMDE allgemein

9. März 2011

Nachdem mich Pavel in seinem Beitrag schon vorgestellt hat, möchte ich an dieser Stelle noch ein bisschen über meinen Hintergrund und die geplanten Aufgaben rund ums RENDER-Projekt berichten.

Ich habe Computerlinguistik an der Universität Potsdam studiert. Was ist das eigentlich genau? Üblicherweise antworte ich auf diese Frage: “Wir verarbeiten menschliche Sprache mit Hilfe des Computers”.

Meine Studienschwerpunkte waren u.a. Wissensverarbeitung und Semantikrepräsentation. Dabei begegneten mir Wikipedia-Inhalte immer wieder als Datenbasis bei Themengebieten wie z.B. Text Mining und Information Retrieval. Natürlich verwende ich Wikipedia ganz selbstverständlich als Nachschlagewerk und Möglichkeit mir schnell einen ersten Überblick zu einem Thema zu verschaffen. Auch bei meiner Arbeit in einem kleinen Kreuzberger Start-Up-Unternehmen spielte Wikipedia eine wichtige Rolle. Wir extrahierten Fakten aus verschiedenen Wikipedia-Sprachversionen und visualisierten Bedeutungszusammenhänge. Ich beschäftigte mich unter anderem mit den Besonderheiten der Wiki-Syntax in Infoboxen, Tabellen und Geodaten zur Extraktion und Weiterverarbeitung der Fakten. Dazu nutzte ich auch Wiktionary-Informationen im Tokenisierungs- und Parsingprozess.

Wikipedia ist allgegenwärtig. Ich war letzte Woche Mittwoch mit Mathias auf der CeBit in Hannover. Bei mehreren Ausstellern fanden wir Wikipedia oder DBPedia als Datengrundlage der Entwicklung. Diese Beobachtung verdeutlichte wieder, Wikipedia wird nicht nur als Enzyklopädie genutzt, sondern ist darüber hinaus eine häufig verwendete Datenbasis vielfältiger Forschungen und Entwicklungen gerade im Bereich der Sprachtechnologie und Computerlinguistik. Deshalb freue ich mich besonders die Arbeit der Geschäftsstelle für das Forschungsprojekt RENDER unterstützen zu können.

Im Folgenden möchte ich kurz das Projekt vorstellen und insbesondere die Aufgaben von Wikimedia.

Das RENDER-Projekt

Im WWW stehen riesige Datenmengen zur Verfügung. Zu jedem denkbaren Thema werden Informationen, Hintergründe, verschiedene Sichtweisen und Standpunkte veröffentlicht, verbreitet und ausgetauscht. Allerdings ist es für Nutzer schwierig sich zu einem Thema umfassend zu informieren. Denn mit Zunahme der Informationsmengen wurden auch immer mehr Mechanismen entwickelt, die Wissen nach persönlichen Einstellungen, Vorlieben oder Profilen „vorfiltern“. Genau an dieser Stelle setzt das Projekt an und will Lösungen für dieses Problem liefern.

RENDER – Reflecting Knowledge Diversity – ist ein EU-gefördertes Forschungsprojekt an dem neben Wikimedia Deutschland e.V. sechs weitere europäische Projektpartner teilnehmen. Die Projektkoordination obliegt dem KIT (Karlsruher Institut für Technologie). Es ist geplant Methoden und Datenmodelle zu entwickeln um verschiedene Perspektiven eines Themas zu verstehen und diese beschreib- und auswertbar zu machen. Dabei werden Open-Source Erweiterungen bekannter kommunikativer und kollaborativer Dienste wie z.B. MediaWiki und WordPress entstehen. Die Forschungsergebnisse und entwickelten Methoden werden in drei Fallstudien unter Leitung von Wikimedia Deutschland, Google Ireland Ltd. und Telefonica I+D eingesetzt und deren Nutzen evaluiert.

Die Aufgabenpakete von Wikimedia

Neben der Bereitstellung der Daten und der Zugriffsinformationen liegt unsere Hauptaufgabe in der Durchführung der Fallstudie. In der ersten Phase entwickeln wir Metriken und Messmethoden um die Entwicklungen in / von Wikipedia zu beurteilen und zu verstehen. Das betrifft u.a. Fragen der Qualitätsbeurteilung von Wikipedia-Artikeln, das Verstehen von Konflikten zu einem Artikel bzw. Artikelabschnitten und das Erkennung von Anomalien im Inhalt und Editionsverlauf eines Artikels. Die gewonnenen Erkenntnisse wollen wir und unsere Projektpartner nutzen um geeignete Werkzeuge zu entwickeln. Diese sollen einerseits die Arbeit bzw. die Zusammenarbeit der Autoren erleichtern, andererseits den Lesern ermöglichen Sachverhalte mit verschiedenen Standpunkten nachzuvollziehen und dadurch auch die Motivation zur Mitarbeit zu steigern. Dabei können auch Techniken aus dem Bereich der Computerlinguistik zum Einsatz kommen. Beispielsweise könnte eine Sentiment Analyse dafür genutzt werden, subjektiv formulierte Passagen in einem Artikel automatisiert zu identifizieren. Die neuen Werkzeuge wollen wir frühzeitig gemeinsam mit Euch evaluieren. Darum ist gerade auch euer Feedback zu Nutzen und Verwendbarkeit besonders wichtig für unsere Arbeit. Unser großes, persönliches Ziel innerhalb des RENDER-Projekts ist es die Qualität, die Wertschätzung und das Vertrauen in Wikipedia zu erhöhen.

Ich freue mich auf meine spannenden neuen Aufgaben und bin bei Fragen oder Feedback unter angelika.adam@wikimedia.de erreichbar.

Weitere Informationen zum Thema RENDER findet ihr unter:

http://render-project.eu

http://www.facebook.com/renderproject

http://twitter.com/renderproject

Kommentare

  1. […] RENDER haben wir gerade das erste Projektjahr abgeschlossen. Vor einiger Zeit hatten wir hier über unseren Beitrag im Projekt sowie die geplanten Ergebnisse und den Nutzen für Wikipedia […]

  2. […] Matthias nimmt am Workshop des Wikimedia Research Committee teil und stellt dort unter anderem das RENDER-Projekt […]

  3. […] und sich in die Projektinterna eingearbeitet. Ein kurzer Überblick über RENDER dazu im Blogbeitrag. In diesem Zusammenhang fanden außerdem Treffen mit einem Diplomanten statt, der Wikipedia im […]

  4. Angelika
    10. März 2011 um 17:18 Uhr

    Im Rahmen des RENDER-Projekts erforschen wir gemeinsam mit den Konsortialpartnern Wikipedia und veröffentlichen sowohl die Ergebnisse als auch die Werkzeuge, die wir dazu entwickelt haben (z.B. auf dem Toolserver). Natürlich ist es auch gewünscht, dass aktive Autoren der Wikipedia mit diesen Werkzeugen gezielter in Wikipedia arbeiten können und so die Enzyklopädie verbessern.

  5. Marcus Cyron
    10. März 2011 um 13:43 Uhr

    Verstehe nur die Hälfte *g* – nochmal kurz gefragt: die Wikipedia ist also der Testballon für die entwickelten Programme (oder wie immer man das nennt)? Seine Struktur und Datensätze werden als Proberaum für Entwicklungen genutzt, die später auch anderswo zur Anwendung kommen sollen? Was ist das vorrangige, praktische Ziel des Ganzen dann?

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert