KI-Prozess

Erster Rechtsstreit zu Datennutzung in KI-Training – Das sind die ersten Ergebnisse

Gerichtsprozess zu KI-Urheberrechts-Fall — Foto: Conny Schneider, unsplash

Bei der Entwicklung von Open-Source-KI-Software werden die Trainingsdatensätze oft nicht öffentlich preisgegeben. Der Grund: Es bestehen zu viele rechtliche Unsicherheiten, ob Datensätze, die auch für das Training von KI-Modellen nutzbar sind, unter die Ausnahme zum Text- und Data-Mining im Urheberrecht fallen. Dabei wäre es nachhaltiger, wenn bereits erstellte Datensätze frei zugänglich und damit wiederverwendet werden können. Nun könnte ein Fall offene Fragen klären.

Dr. Saskia Ostendorff

18. Juli 2024

Aktuell hat ein Fotograf den gemeinnützigen Softwareentwickler LAION e. V. verklagt. Er wirft dem Verein die unrechtmäßige Nutzung eines seiner Bilder für KI-Training vor. Wikimedia Deutschland verfolgt den Fall mit großem Interesse, weil damit erstmals eine gerichtliche Einschätzung zur Rechtslage der Datennutzung für KI-Training erfolgt und das Urteil wegweisend für die Arbeit der Open-Source-Communitys im KI-Bereich sein wird.

Für Wikimedia Deutschland verfolgt unsere Justiziarin und Rechtsanwältin Dr. Saskia Ostendorff den Rechtsstreit am Landgericht Hamburg.

“Was hier am Ende des Rechtsstreits entschieden wird, wird auch Auswirkungen auf die Arbeit von Wikimedia haben, gerade was unsere Arbeit in der Softwareabteilung mit Open-Source-Communitys betrifft.”

Das ist die Ausgangssituation

Der verklagte Verein LAION ist eine gemeinnützige Organisation, die Datensätze, Werkzeuge und Modelle zur Verfügung stellt, um die Forschung im Bereich des maschinellen Lernens zu fördern. Der Verein hat den frei verfügbaren Datensatz LAION 5B erstellt, in welchem auch das Bild des klagenden Fotografen enthalten war. Das Bild stammt ursprünglich von der Website Bigstock.com, wo ein Nutzungsvorbehalt aufgeführt wurde. Mit dieser Klausel sollte ausgeschlossen werden, dass Bilder der Plattform u. a. für KI-Trainings verwendet werden. Jedoch steht jetzt vor Gericht zur Debatte, ob die Form des Nutzungsvorbehalts den aktuellen Anforderungen genügt.
Im Kern dreht sich der Rechtsstreit nun also darum, ob LAION eine Urheberrechtsverletzung begangen hat und ob der Nutzungsvorbehalt von Bigstock in seiner Form gültig war.
Der klagende Fotograf argumentiert, dass seine Verwertungsrechte verletzt wurden, da LAION das Bild für den Trainingsdatensatz trotz des Nutzungsvorbehalts von Bigstock verwendet hat.
LAION beruft sich hingegen auf die Text- und Data-Mining-Schranke des § 44b UrhG. Danach sind Vervielfältigungen von rechtmäßig zugänglichen Werken, wie das Bild des Fotografen, für Text und Data-Mining zulässig. Das ist nur dann nicht der Fall, wenn der Fotograf sich die Nutzung zum Text- und Data-Mining in maschinenlesbarer gültiger Form vorbehalten hat.

Das ist Text oder Data Mining

Text- und Data-Mining (TDM) sind Forschungsmethoden, mit denen große Mengen Daten oder Text zusammengefasst und analysiert werden können. Beim Data-Mining liegt der Fokus auf Daten, beim Text-Mining auf Volltexten aus wissenschaftlichen Zeitschriften, Romanen oder ähnlichem. Bevor die Datenmenge oder Texte analysiert werden können, werden sie systematisch und maschinenlesbar aufbereitet. Anschließend können sie mit computergestützten Analysen automatisiert auf Muster oder Zusammenhänge hin untersucht werden. Ein bekanntes Beispiel für Text-Mining ist das Project Robots Reading Vogue der Yale University, bei dem der Korpus der Vogue Ausgaben nach verschiedenen Fragen auf Muster hin analysiert wird.

Rechtliche Auseinandersetzung zum Text- und Data-Mining

Das Gericht fokussierte sich auf die Anwendung des § 44b UrhG, den es grundsätzlich für das Auslesen und Überprüfen der Daten als anwendbar ansieht. Die Frage, ob § 44b UrhG auch für das Training von KI-Modellen gilt, ließ das Gericht offen und verwies darauf, dass dies möglicherweise eine Vorlagefrage für den Europäischen Gerichtshof sei.

Das Gericht betonte, dass die gesamte Kreativbranche vor der Herausforderung steht, dass KI die Erstellung von Werken übernehmen könne und der Fall auch vor diesem Hintergrund bewertet werden müsse.

Weiterhin ging es vor allem darum, wie ein Nutzungsvorbehalt aussehen und in welcher Form er maschinenlesbar sein muss. Der Nutzungsvorbehalt wurde von der Plattform Bigstock vorgebracht, nicht vom Fotografen, der geklagt hatte. Das Gericht stellte klar, dass es nicht entscheidend ist, von wem der Nutzungsvorbehalt kommt – die Erklärung der Plattform macht sie auch für den Fotografen wirksam. Diese Einschätzung wurde zunächst nicht weiter begründet.

Es wurde lange diskutiert, wie ein maschinenlesbarer Nutzungsvorbehalt gestaltet sein sollte. Reicht schon ein schriftlicher, für Menschen lesbarer Nutzungsvorbehalt oder ist ein spezielles technisches Format nötig, das von Maschinen gelesen werden kann?

Entscheidung Ende September erwartet

Die Entscheidung des Falls, ob LAION das Bild des Fotografen für den Trainingsdatensatz nutzen durfte, trifft sich nun also an dem Merkmal der Maschinenlesbarkeit des Nutzungsvorbehalts zum Ausschluss des Text- und Data-Mining.

Beim Begriff „Maschinenlesbarkeit“ in § 44b UrhG erklärte das Gericht, dass es zwei Auffassungen des Begriffs gibt: eine weite und eine enge. Nach der weiten Auffassung, ist ein Nutzungsvorbehalt maschinenlesbar, wenn er irgendwie digital erfassbar ist, während die enge Auffassung ein strukturiertes Dateiformat fordert, das maschinell auslesbar ist. Die KI-Verordnung erfordert einen modernen Standard, ohne diesen näher zu konkretisieren. LAION argumentiert, dass z. B. das Dateiformat robot.txt ein solcher Standard sei, während der Kläger dies als wenig praktikabel für Rechteinhaber kritisierte.

Das Gericht hat am Ende der Verhandlung noch keine endgültige Entscheidung getroffen, diese wird für den 27. September 2024 erwartet.

Die Bedeutung des Falls für die Open-Source-Community und für freies Wissen

Der erste Rechtsstreit zur Nutzung von KI-Modellen in Hamburg könnte bedeutende Auswirkungen auf die Open-Source-Community haben. Dieser Fall könnte nicht nur rechtliche Klarheit im Hinblick auf die Anwendung der Text- und Data-Mining-Schranke in § 44b UrhG bringen. Er könnte auch die Art und Weise beeinflussen, wie frei zugängliche Werke in Open-Source-Datasets genutzt werden dürfen. Eine Entscheidung zugunsten des Klägers könnte die Nutzung solcher Werke einschränken. Andererseits wird der Fall die gegenwärtig unklaren Rahmenbedingungen für einen maschinenlesbaren Nutzungsvorbehalt klarstellen.

Es wurde ebenfalls bereits deutlich, dass es nicht bei der Entscheidung des Landgerichts bleiben wird. Das Gericht signalisierte, dass es die Auslegung des Gesetzes als eine Vorlagefrage für den Europäischen Gerichtshof sieht. Demnach ist damit zu rechnen, dass sich der Rechtsstreit über mehrere Jahre ziehen wird und die rechtlichen Unklarheiten bis zum Abschluss des Verfahrens bestehen bleiben.
Dennoch wird die Entscheidung im September erste offene Fragen in Bezug auf die rechtliche Bewertung für die Trainingsdatensätze von KI-Modellen klären.

Nachtrag: Erstes Urteil im Rechtsstreit

Am 27. September entschied das Landgericht Hamburg, dass die Erstellung von KI-Trainingsdatensätzen nach § 60d Urheberrechtsgesetz (UrhG) als Text- und Datamining zulässig ist. In diesem Artikel, erschienen bei Legal Tribune Online, erläutert Saskia Ostendorff die Entscheidung: Fotograf muss Nutzung seines Bildes in KI-Datenbank dulden (15.10.2024)

#Freies Wissen #Freie Lizenzen #Open Data #Technisches

Berliner Geheimnistuerei: Wie steht es um Informationsfreiheit in der Hauptstadt?

Durch eine Lupe sieht man das Rot Rathaus Berlin.

Petition

Berliner Senat beschneidet Informationsfreiheit – und ignoriert Expertise und Petition

Zwei Frauen sitzen nebeneinander. Untertitel: Wir wünschen ein Seniorenheim für asiatische Leute.

Rückblick

Mehr Raum für marginalisiertes Wissen: Drei Projekte aus dem re·shape–Förderprogramm 2024/25

Ein Blick auf die Fenster vom FürthWiki-Laden.

Interview

Cookie	Typ	Dauer	Beschreibung
cli_user_preference			Dieses Cookies speichert, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine personenbezogenen Daten.
cookielawinfo-checkbox-necessary		1 year	Zustimmung der Kategorie "Essenziell".
CookieLawInfoConsent		1 year	Dieses Cookies speichert, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine personenbezogenen Daten.
viewed_cookie_policy	ständig	1 Stunde	Dieses Cookies speichert, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine personenbezogenen Daten.

Cookie	Typ	Dauer	Beschreibung
cookielawinfo-checkbox-einstellungen	0	1 year	Zustimmung der Kategorie "Einstellungen"
pll_language	0	1 year	Das Cookie speichert den Sprachcode der zuletzt besuchten Seite.

Cookie	Typ	Dauer	Beschreibung
_pk_id.1.64ac	0	1 year	Cookie von Matomo
_pk_ses.1.64ac	0	30 minutes	Cookie von Matomo
cookielawinfo-checkbox-matomo		1 year	Zustimmung der Kategorie "Matomo"

Cookie	Typ	Dauer	Beschreibung
_pk_id.1.64ac	0	1 year	Cookie von Matomo
_pk_ses.1.64ac	0	30 minutes	Cookie von Matomo
cookielawinfo-checkbox-matomo-und-heatmap		1 year	Zustimmung der Kategorie "Matomo und Heatmap"