Posts Tagged ‘Infobox’



Google stellt historische Infobox-Daten zur Verfügung

Guillermo Garrido (NLP Group, UNED, Spanien) und Enrique Alfonseca von Google Research Zürich, einem unserer Projektpartner im RENDER-Projekt, haben ein Datenset extrahiert, das alle Attribut-Wert-Paare von Infoboxen in der englischsprachigen Wikipedia-Artikeln seit 2003 enthält.

Das WHAD-Set (Wikipedia Historical Attribute Data) ist auf der Downloadseite im RENDER-Toolkit abrufbar. Das 5,5 GB große Datenset steht unter der Lizenz CC-BY-SA und ist als Trainingsdatenmenge für Forscher im Bereich überwachtes maschinelles Lernen besonders interessant.

Ausführlichere Informationen zum WHAD-Datenset finden sich auf Enrique Alfonsecas Webseite.

Wir freuen uns besonders auf Enriques Teilnahme an der Wikipedia Academy. Seine Arbeiten zum WHAD-Datenset stellt er am Samstag während der Paper Session III: Analyzing Wikipedia Article Data vor.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (1 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...