zurück

Der Umgang mit unseren Nutzerdaten – ein Aufruf

WMDE allgemein

20. Dezember 2013

Seit einigen Monaten bewegen regelmäßig Diskussionen zum Thema “Datenschutz und der Umgang in der Wikimedia-Welt damit” die deutschsprachigen Communitys, eine der größten nicht-englischsprachigen Communitys im Wikimedia Movement. Das betrifft insbesondere natürlich Aktive in der Wikipedia, aber auch aus Schwesterprojekten.

Datenschutz ist ein Thema, an dem die deutschsprachige Community seit jeher ein besonderes Interesse hat. Diese spezielle Diskussion allerdings entzündete sich anhand des Tools “Deep User Inspector” auf den Tool Labs, das eine lang respektierte Übereinkunft des Toolservers aushebelte, nach dem personalisierte Daten nur nach einem Opt-In aggregiert verfügbar gemacht werden.

Da derzeit die Wikimedia Foundation ihre Privacy Policy überarbeitet und bis zum 15. Januar um Beteiligung und Diskussion unter Talk:Privacy_policy bat, haben wir gebeten, aus der Community heraus ein Statement zu formulieren. Der hiermit vorgelegte Text wurde zu weiten Teilen von Benutzer:NordNordWest verfasst und von annähernd 120 Aktiven der Wikimedia-Projekte gezeichnet. Er repräsentiert die vielfach in der deutschsprachigen Community vorhandenen Bedenken und Sorgen und ist daher unseres Erachtens geeignet, die Diskussion um diese Themen zu bereichern. Wir danken allen Beteiligten herzlich.

Dieser Beitrag erscheint zeitgleich im Wikipedia:Kurier. Eine Übersetzung wurde im Movement-Blog der Foundation eingereicht und auch auf der Diskussionsseite der Privacy Policy auf Meta. Dort findet sich auch die vollständige Liste der Unterzeichnenden. Um ein Zerfasern der Diskussion zu vermeiden, bitten wir Euch, Diskussionsbeiträge oder nachträgliche Zeichnungen dort hinzuzufügen.

Denis Barthel

Ausgangslage

Im Zuge der Enthüllungen von Edward Snowden, aber auch des Umzugs der Programme vom Toolserver nach Wikimedia Labs ist es innerhalb der Community zu einigen Diskussionen bezüglich der Benutzerdaten und des Umgangs damit gekommen. Als angemeldeter Benutzer stehen einerseits diverse Sicherheiten zur Verfügung:

  • Die Anmeldung erlaubt Pseudonyme.
  • Die IP-Adresse angemeldeter Benutzer wird nicht offengelegt. Nur Checkuser können diese einsehen.
  • Benutzer haben ein Recht auf Anonymität. Das betrifft alle Arten persönlicher Daten: Namen, Alter, Herkunft, Geschlechtszugehörigkeit, Familienstand, Berufs- oder Bildungsstand, religiöse oder politische Ansichten, sexuelle Orientierung usw.
  • Als direkte Reaktion auf Snowdens Enthüllungen wird seit Sommer 2013 das HTTPS-Protokoll als Standard verwendet (siehe meta:HTTPS), damit u. a. von außen nicht mehr sichtbar sein soll, welche Seiten von welchem Benutzer aufgerufen werden und welche Informationen er sendet.

Andererseits werden alle Beiträge eines Benutzers mit genauem Zeitstempel festgehalten. Der Zugriff auf diese Daten ist jedermann zugänglich und ermöglicht die Erstellung von Benutzerprofilen. Solange die Werkzeuge dazu auf dem Toolserver liefen, waren Benutzerprofile aus aggregierten Daten nur nach Einverständniserklärung des jeweiligen Benutzers möglich (Opt-in-Verfahren). Das lag daran, dass der Toolserver von Wikimedia Deutschland betrieben wurde und deutschem Datenschutzrecht unterlag, einem der strengsten der Welt. Es gab aber auch schon Auswertungswerkzeuge unabhängig von der Foundation oder eines ihrer Chapter. Als Beispiel sei Wikichecker genannt, der allerdings lediglich die englische Wikipedia betrifft.

Der Umzug der Programme nach Tool Labs und damit das Ende des deutschen Datenschutzrechts auf ihre Funktionalität führte zu einem Meinungsbild, ob bei X!’s Edit Counter weiterhin ein Opt-in als freiwillige Selbstbeschränkung verbindlich sein oder ob darauf gänzlich verzichtet werden sollte. Das Meinungsbild ergab eine Mehrheit von 259 Stimmen für den Beibehalt von Opt-in, 26 Benutzer sprachen sich für eine Opt-out-Lösung aus und 195 stimmten für einen Verzicht einer Beschränkungsmöglichkeit. In direkter Folge auf dieses Ergebnis wurde als neues Werkzeug der Deep User Inspector programmiert, der projektübergreifend ohne Einspruchsmöglichkeit aggregierte Benutzerdaten anbietet. Neben den reinen Zahlen der Beiträge werden beispielsweise Statistiken zu den Uhrzeiten der einzelnen Wochentage geliefert, an denen ein Benutzer tätig war, Auflistungen zum Abstimmverhalten oder eine Karte, die die Lage der Objekte anzeigt, in deren Artikeln er editiert hat. Diese Datenaggregierung ermöglicht einfache Rückschlüsse auf jeden einzelnen Benutzer: Eine Anhäufung von Bearbeitungen an Artikeln einer bestimmten Region z. B. lässt mit hoher Wahrscheinlichkeit darauf schließen, wo jemand lebt.

Problematik

Dass Benutzerdaten bei jeder Bearbeitung erfasst werden, ist jedem Benutzer bekannt. Es besteht jedoch ein gravierender Unterschied zwischen einem einzelnen Datensatz und einer aggregierten Darstellung dieser Daten. Mit ihrer Hilfe kann das Recht auf Anonymität aufgeweicht, im schlechtesten Fall ganz ausgehebelt werden. Einige Beispiele:

  • Eine Auflistung der Uhrzeiten, an denen jemand editiert, lässt im Allgemeinen darauf schließen, in welcher Zeitzone er sich befindet.
  • Anhand der Koordinaten von Artikeln, die jemand bearbeitet hat, lässt sich meist noch viel genauer ablesen, woher jemand stammt. Es ist eher die Ausnahme, dass jemand lediglich ein Gebiet X bearbeitet, obwohl er aus Y stammt.
  • Am genauesten ist dabei eine Analyse der Koordinaten von Fotostandorten, denn für ein Foto muss man vor Ort gewesen sein.
  • Herkunftsort und Fotostandorte geben Auskunft über Fortbewegungsmöglichkeiten (beispielsweise Besitz eines Autos), -wege und -zeiten. Bei Benutzern, die viele Fotos hochladen, sind Bewegungsprofile möglich.
  • Zeitanalysen über genaue Tage im Jahr ermöglichen Rückschlüsse auf den Familienstand. Wer regelmäßig während Ferienzeiten nicht editiert, ist mit großer Wahrscheinlichkeit entweder Schüler oder Elternteil. Oder Lehrer.
  • Wird an bestimmten Feiertagen nicht editiert, lässt sich eine Glaubensrichtung erahnen.
  • Fotostandorte im Ausland verraten entweder Urlaubsziele und damit unter Umständen etwas über die finanzielle Situation oder den Beruf des Fotografen.
  • Wenn sich anhand der Uhrzeiten, an denen jemand editiert, herauslesen lässt, dass dies während der Arbeitszeit geschieht, macht er sich in Ländern oder in Unternehmen, in denen dies verboten ist, besonders angreifbar. Im schlechtesten Fall kann jemand, der ihm schaden will und womöglich noch mehr über ihn weiß (nichts Ungewöhnliches für jemanden, der seit mehreren Jahre editiert), die Information an seinen Arbeitgeber weiterreichen. Innerwikipedianische Streitigkeiten würden damit ins Realleben getragen.

Vorschläge

Wikipedia steht in der Liste der weltweit meistaufgerufenen Seiten auf Platz 5. Wie Wikipedia mit ihren Benutzern umgeht, hat daher Vorbildcharakter. Es ist unlogisch und unsinnig, auf der einen Seite den Schutz der Benutzer zu erhöhen, auf der anderen Seite aber zuzulassen, dass das Recht auf Anonymität ausgehöhlt wird. Das Wertvollste der Wikipedia, von Commons und der anderen Projekte sind ihre Benutzer. Sie erstellen die Inhalte, die ihren Erfolg begründen. Aber sie selbst sind nicht die Inhalte. Es gilt, sie zu schützen.

Die Foundation sollte sich verpflichten, den Schutz ihrer angemeldeten Benutzer höher zu bewerten und entsprechende Schritte einzuleiten. In einem ersten Schritt gehört dazu die Selbstverpflichtung, bei allen Werkzeugen auf ihren eigenen Servern, die der detaillierten Benutzerdatenaggregierung dienen, analog den Regeln für den Toolserver wieder verpflichtend ein Opt-in zu verlangen. Dieses kann z. B. für alle Benutzer über die Einstellungen erfolgen. Seit der Gründung der Wikipedia im Jahre 2001 ist das Projekt gewachsen, ohne dass solche Werkzeuge dazu zwingend notwendig gewesen wären. Es ist kein Grund erkennbar, warum das für die Zukunft anders sein sollte. Die Community ermöglicht durch ihr Schaffen freier Inhalte erst die Spendengelder, mit denen Tool Labs betrieben wird. Dass damit gleichzeitig ihr Recht auf Anonymität gegen ihre Meinungsmehrheit hintergangen werden kann, ist absurd.

Damit die Auswertung von Benutzerdaten nicht auf Servern außerhalb der Foundation stattfinden kann, müssen auch weitergehende Schritte unternommen werden:

  • Dumps der Wikipedia sollten keine detaillierten Benutzerinformationen mehr enthalten. Die Lizenz verlangt lediglich die Namensnennung der Autoren, nicht die Uhrzeit oder den Tag ihrer Bearbeitungen.
  • Der Zugriff auf die API sollte bezüglich der Benutzerdaten beschränkt werden.
  • Es wäre zu überlegen, ob es überhaupt notwendig und den Projektzielen dienlich ist, die IP-Adressen angemeldeter Benutzer (sofern gespeichert) sowie die Zeitstempel aller Aktionen dauerhaft minutengenau zu speichern und anzuzeigen. Eine zeitliche Grenze könnte hier sein, wie lange Checkuser-Abfragen sinnvoll getätigt werden können. Daten, die nicht vorhanden sind, können auch nicht für andere Zwecke missbraucht werden.

Kommentare

  1. […] Auch die Überarbeitung der Datenschutz-Policy der Wikimedia Foundation stieß insbesondere bei deutschen Autoren auf deutlichen Widerstand. (Torsten Kleinz) […]

  2. Streit über Datenschutz bei Wikipedia
    15. Januar 2014 um 10:49 Uhr

    […] aggreggiert werden können und damit Rückschlüsse auf dessen Identität möglich werden. In einem Appell an die Wikimedia Foundation, den 120 Aktive unterzeichnet haben, heißt es deshalb: “Es […]

  3. […] we are posting an English translation of a blog post from German Wikipedians outlining concerns about the handling of Wikipedia user data, or metadata. […]

Comments are closed.