Das WHAD-Set (Wikipedia Historical Attribute Data) ist auf der Downloadseite im RENDER-Toolkit abrufbar. Das 5,5 GB große Datenset steht unter der Lizenz CC-BY-SA und ist als Trainingsdatenmenge für Forscher im Bereich überwachtes maschinelles Lernen besonders interessant.
Ausführlichere Informationen zum WHAD-Datenset finden sich auf Enrique Alfonsecas Webseite.
Wir freuen uns besonders auf Enriques Teilnahme an der Wikipedia Academy. Seine Arbeiten zum WHAD-Datenset stellt er am Samstag während der Paper Session III: Analyzing Wikipedia Article Data vor.