Google stellt historische Infobox-Daten zur Verfügung

Guillermo Garrido (NLP Group, UNED, Spanien) und Enrique Alfonseca von Google Research Zürich, einem unserer Projektpartner im RENDER-Projekt, haben ein Datenset extrahiert, das alle Attribut-Wert-Paare von Infoboxen in der englischsprachigen Wikipedia-Artikeln seit 2003 enthält.

Das WHAD-Set (Wikipedia Historical Attribute Data) ist auf der Downloadseite im RENDER-Toolkit abrufbar. Das 5,5 GB große Datenset steht unter der Lizenz CC-BY-SA und ist als Trainingsdatenmenge für Forscher im Bereich überwachtes maschinelles Lernen besonders interessant.

Ausführlichere Informationen zum WHAD-Datenset finden sich auf Enrique Alfonsecas Webseite.

Wir freuen uns besonders auf Enriques Teilnahme an der Wikipedia Academy. Seine Arbeiten zum WHAD-Datenset stellt er am Samstag während der Paper Session III: Analyzing Wikipedia Article Data vor.

Tags: , , , , ,

Dieser Eintrag wurde geschrieben von am Donnerstag, Juni 28th, 2012 um 12:46 Uhr und ist zu finden unter Wissenschaft. Sie können diesen Beitrag mit RSS 2.0 Feed abonnieren. Sowohl Kommentare als auch Pings sind derzeit geschlossen.
1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (1 Bewertungen, Durchschnitt: 5,00 von 5)
Loading...

Kommentare sind geschlossen.

Empfiehl diesen Beitrag