zur Artikelübersicht

Google stellt historische Infobox-Daten zur Verfügung

WMDE allgemein

28. Juni 2012

Guillermo Garrido (NLP Group, UNED, Spanien) und Enrique Alfonseca von Google Research Zürich, einem unserer Projektpartner im RENDER-Projekt, haben ein Datenset extrahiert, das alle Attribut-Wert-Paare von Infoboxen in der englischsprachigen Wikipedia-Artikeln seit 2003 enthält.

Das WHAD-Set (Wikipedia Historical Attribute Data) ist auf der Downloadseite im RENDER-Toolkit abrufbar. Das 5,5 GB große Datenset steht unter der Lizenz CC-BY-SA und ist als Trainingsdatenmenge für Forscher im Bereich überwachtes maschinelles Lernen besonders interessant.

Ausführlichere Informationen zum WHAD-Datenset finden sich auf Enrique Alfonsecas Webseite.

Wir freuen uns besonders auf Enriques Teilnahme an der Wikipedia Academy. Seine Arbeiten zum WHAD-Datenset stellt er am Samstag während der Paper Session III: Analyzing Wikipedia Article Data vor.