Künstliche Intelligenz und Wikipedia

Wenn Maschinen schöpfen

Die neuen Möglichkeiten der Text- und Bild-Erstellung mittels Künstlicher Intelligenz (KI) führen zu einer Vielzahl von Debatten. Es geht um Fragen des Urheberrechts, die potenziellen Gefahren von Creative-Commons-Lizenzen und Perspektiven für einen ethischen Umgang mit den Technologien.

Patrick Wildermann (freier Autor)

16. März 2023

Künstliche Intelligenz spielt für die Wikimedia-Projekte auf mehreren Ebenen eine wichtige Rolle – und zwar schon lange. Das mag im gegenwärtigen Wirbel um KI-gestützte Chatbots und Bildgeneratoren leicht übersehen werden.

Zum einen – so erläutert es Wikimedia Präsidiumsmitglied und früherer Wikidata-Mitentwickler Jens Ohlig – sind etwa die freie Wissensdatenbank Wikidata oder das Projekt Abstract Wikipedia (das es Nutzenden ermöglichen soll, Wikipedia-Artikel sprachunabhängig zu erstellen und zu pflegen) selbst „Symbolic AI“. Was vereinfacht bedeutet: Das Weltwissen wird in Form von Regeln formuliert und maschinenlesbar gemacht. „Dafür“, so Ohlig, „haben wir heute im Prinzip unendliche Ressourcen – durch Wikis und Communities“.

Beethoven war kein HSV-Fan

KI hilft aber beispielsweise auch den Freiwilligen der Wikipedia, die freie Online-Enzyklopädie vor Vandalismus zu schützen. Das Programm ORES unterscheidet konstruktive von destruktiven Edits, die böswillige User*innen oder Vandalen-Bots erstellen – mit ideologischer Absicht oder aus schlichter Lust am Nonsens (so kommen Einträge zustande wie etwa „Beethoven war HSV-Fan“). Für menschliche Editierende höchst mühsam herauszufiltern.

Spannend ist wiederum angesichts der jüngeren Entwicklungen im KI-Bereich die Frage, ob etwa vom Textbot ChatGPT generierte Wikipedia-Einträge als nichtmenschlicher Output noch erkennbar wären? Das Unternehmen OpenAI jedenfalls scheint selbst Schwierigkeiten mit der Unterscheidung zu haben. Auf der von Luis Villa gestarteten Plattform „Open(ish) Machine Learning News“ war kürzlich in einem Beitrag zu lesen, dass die Firma ein Tool zurückziehen musste, mit dem sich Texte von ChatGPT identifizieren lassen sollten – wegen einer gravierenden Rate falsch-positiver Ergebnisse. Jens Ohlig ist allerdings überzeugt, dass KI-generierte Texte aufgrund „einer gewissen Seelenlosigkeit“ von Beiträgen menschlicher Freiwilliger auf absehbare Zeit unterscheidbar bleiben.

Zwischen Wirklichkeit und Illustration

Immer dringlicher werden derweil Fragen des Urheberrechts. Wenn eine KI aus im Netz verfügbaren Inhalten einen neuen Output erzeugt – steht dieser dann automatisch auch unter freier Lizenz? Wohl erst Gerichte werden das in den nächsten Jahren klären können. Vieles spricht jedoch dafür, dass die Rechte Kreativer am „Trainingsmaterial“ zumindest dann verletzt werden können, wenn ihre Werke sehr ähnlich von einer KI nachgebildet werden. Für die auf Rechtstreue bedachten Wikimedia-Communities werden solche offenen Rechtefragen zum Problem beim Umgang mit Uploads – besonders wenn die Beteiligung von KI an einem Bild oder sonstigem Inhalt mit vertretbarem Aufwand kaum noch erkennbar ist.

Lukas Mezger, langjähriger Wikipedia-Aktiver und Rechtsanwalt für IT-Recht, hat eine klare Antwort, wenn es um Beiträge in der Wikipedia geht: „Als Community sind wir bislang zu dem Ergebnis gekommen, dass wir keine KI-generierten Texte in der Enzyklopädie wollen“. Deren mangelnde Überprüfbarkeit in Bezug auf Quellen passe schlicht nicht „zum Selbstverständnis von Wikipedia als verlässlicher Informationsquelle“. Zur Diskussion über Rechte komme es aus seiner Sicht entsprechend erst gar nicht, weil der redaktionelle Riegel vorgeschoben sei.

Anders sieht es bei der Frage nach Bildrechten aus. Wobei es, so Mezger, zwei Fälle zu differenzieren gelte: „Einerseits nutzen wir in der Wikipedia dokumentarische Bilder – wie sieht das Taj Mahal aus, wie eine Seeanemone? Da geht es um die Abbildung der wirklichen Welt, nicht um algorithmisch erstellte Phantasien“. Auf der anderen Seite fänden sich in der Enzyklopädie Bilder, die abstrakte Vorgänge illustrierten – wie zum Beispiel Fluss-Grafiken. Bei der Erstellung solcher Illustrationen wäre der Einsatz von KI aus Mezgers Sicht durchaus denkbar. Was Fragen dazu aufwirft, ob jemand (und wer) an derlei Grafiken Urheberrechte hat und wie folglich die korrekten Rechtehinweise lauten müssen.

Wenn die KI zur Künstlerin wird

Auf Wikimedia Commons – der freien Bilddatenbank – gibt es mittlerweile eine eigene Seite zu KI-generierten Medien. Inklusive des Hinweises, dass die juristische Debatte dazu andauert. „Die meisten bildgebenden KI-Modelle wurden anhand von Werken trainiert, die urheberrechtlich geschützt sind“, heißt es dort. „In einigen Fällen können solche Modelle Bilder erzeugen, die wesentliche urheberrechtlich geschützte Elemente dieser urheberrechtlich geschützten Trainingsbilder enthalten, wodurch diese Ergebnisse zu abgeleiteten Werken werden.“ Entsprechend bestünde „das Risiko, dass KI-generierte Kunst, die auf Commons hochgeladen wird, die Rechte der Urheber der Originalwerke verletzen kann“.

Bildgeneratoren wie Stable Diffusion, Dall-E oder Midjourney basieren auf KI und können auf der Grundlage von Textbefehlen Bilder erzeugen, die es so zuvor nicht gab. Gegen Stability AI – das Unternehmen hinter Stable Diffusion – haben beispielsweise in den USA die Künstlerinnen Karla Ortiz, Sarah Andersen und Kelly Andersen Klage eingereicht. Der Vorwurf lautet, die Entwickler*innen hätten ihre Werke ohne Erlaubnis zu Trainingszwecken in ihre Datenbanken aufgenommen. Mit dem Resultat, dass in KI-generierten Bildern Motive ihrer Kunst oder (wie im Fall von Sarah Andersen) ein charakteristischer Comic-Stil klar erkennbar seien.

Wo kein Schöpfer, da kein Werk?

Für das sogenannte Text- und Data-Mining – auf dem auch die Nutzung enormer Datenmengen zu Trainingszwecken einer KI basiert – existiere im europäischen Urheberrecht zwar eine Ausnahme, erklärt Lukas Mezger. „Aber ob sie auf diese KI-Outputs anwendbar ist, darauf hat aktuell weder die Wikipedia-Community noch das Urheberrecht eine erschöpfende Antwort.“ Einiges spricht vielmehr dafür, dass KI-generierte Inhalte trotz dieser rechtlichen Ausnahme Rechte anderer verletzen können – und damit für Wikipedia riskant sind – wenn sie nämlich von bestehenden geschützten Werken nicht oder kaum zu unterscheiden sind. Ob diese Ähnlichkeit eher zufällig entsteht oder gewollt ist, spielt dann genauso wenig eine Rolle wie der Umstand, ob fremde Werke dabei ganz oder nur in Teilen imitiert werden.

Urheberrechtsexperte Felix Reda, vormals Mitglied des Europäischen Parlaments innerhalb der Fraktion Die Grünen /EFA, ist zudem sicher, dass durch den KI-Prozess selbst keine neuen Rechte entstehen, weder zugunsten der Anbietenden von KI-Systemen noch zugunsten derjenigen, die sie nutzen. Dies treibt derzeit die Open-Source-Software-Communities um, aus denen einige der Meinung sind, Freie Softwarelizenzen würden sich an KI-generiertem Code gewissermaßen fortsetzen, wenn die KI vorher anhand frei lizenzierter Software trainiert wurde.

Am Beispiel des Programms Copilot von GitHub (eine KI, die auf öffentlich verfügbaren Quellcode und Texte trainiert wurde und Programmierer*innen in Echtzeit Code-Vorschläge macht) argumentiert Reda: „Das Urheberrecht hat immer nur für geistige Schöpfungen gegolten – wo es keinen Schöpfer gibt, gibt es auch kein Werk. Das bedeutet, dass maschinell erzeugter Code wie der von GitHub Copilot überhaupt kein Werk im Sinne des Urheberrechts ist, also auch kein abgeleitetes Werk. Der Output einer Maschine kann einfach nicht urheberrechtlich geschützt werden – er ist gemeinfrei.“

Freie Inhalte als Teil des Problems?

Freilich hat diese Diskussion noch mehr Facetten. Algorithmen werden schließlich nicht nur trainiert, um staunenswerte Maschinenkunst zu produzieren – sondern sie können auch Abbildungen von Menschen herstellen und kommen umgekehrt in verschiedenen Kontexten auch im Bereich der Gesichtserkennung zum Einsatz. Was ist davon zu halten, wenn im Netz frei auffindbare Fotos von Gesichtern von Stable Diffusion und Co zu zwar technisch gesehen neuen Antlitzen gemorpht werden, die dennoch bestimmten lebenden Personen zum Verwechseln ähnlich sehen? Und wie steht es um künstlich erzeugte Abbildungen Minderjähriger? Sollte es solche technischen Möglichkeiten überhaupt geben? Stellen sie am Ende die Freigabe von Inhalten in Frage, wie sie auch für und durch Wikimedia-Projekte erfolgt, weil ihr Genutztwerden fürs KI-Training weniger leicht untersagt werden kann?

Skeptiker*innen wie der US-amerikanische, in Berlin lebende Künstler und Forscher Adam Harvey raten zu radikalen Schritten – etwa, überhaupt keine Fotos von Menschen mehr unter Creative Commons Lizenzen online zu stellen. Konkret postete Harvey kürzlich: „If you post Photos of people online, don’t use Creative Commons licences. That means, they can be freely redistributed in biometric AI / ML databases w/ virtually no legal recourse (CC is legally weak, practically useless)“.

Harvey will darauf hinaus, dass Urheberrechte dafür genutzt werden können, die Nutzung von Material zu kontrollieren – und zwar selbst dann, wenn es eigentlich gar nicht um urheberrechtliche Aspekte geht, sondern wie hier um das Recht am eigenen Bild. Eine Zweckentfremdung des Urheberrechts, die Wikimedia Deutschland entschieden ablehnt. Denn teilweise berufen sich auch staatliche Stellen auf das Urheberrecht, um für die Öffentlichkeit eigentlich sehr wertvolle Informationen geheimzuhalten. Für solche Fälle hat sich inzwischen der Begriff „Zensurheberrecht“ etabliert. Bei CC-lizenziertem Material ist eine solche Zweckentfremdung zum Glück weniger einfach.

Rechtlich unstrittig ist jedoch, dass CC-Lizenzen die Persönlichkeitsrechte in keiner Weise schwächen, da sie sie schlicht nicht erfassen. Auch bei urheberrechtlich CC-freigegebenem Material besteht also sehr wohl “legal recourse” gegen unerwünschte persönlichkeitsrechtliche Eingriffe, aber eben nicht über den per se problematischen Hebel urheberrechtlicher Verbote. Statt den Nutzen freier Inhalte für alle nun über Bord zu werfen, sollte wohl eher für eine konsequente Durchsetzung von Persönlichkeitsrechten gestritten werden.

Geld verdienen mit Freiem Wissen?

Ein weiterer Aspekt, der im Zusammenhang mit Text- und Bild-KI für Diskussionen sorgt, ist die kommerzielle Nutzung freier Inhalte. Ein Unternehmen wie OpenAI könnte in absehbarer Zeit Bezahlmodelle für ChatGPT einführen, auch das von Felix Reda angeführte Programm Copilot soll nach einer Testphase als kostenpflichtiger Dienst angeboten werden. Trainiert aber wurden sie mit Daten, die der Allgemeinheit zur Verfügung stehen. Ein Missstand – oder wird damit die Bedeutung und radikale Konsequenz Freien Wissens klarer?

Auch hier gehen die Meinungen auseinander – auch innerhalb der Wikimedia-Community. Raja Amelung, Co-Leiterin der Softwareentwicklung bei Wikimedia Deutschland, stellt etwa zur Debatte, dass Unternehmen, die mit Freiem Wissen Geld verdienen, zumindest gemeinwohlorientierte Projekte mit Spenden unterstützen sollten. Franziska Heine, Geschäftsführende Vorständin von WMDE betont: „Die Wikimedia-Projekte haben sich von Beginn an dem Paradigma freier Inhalte angeschlossen. Frei sind Inhalte danach nur, wenn sie für beliebige Zwecke verwendet werden dürfen – einschließlich kommerzieller.“

Gesellschaftspolitische Perspektiven

Lukas Mezger betont: „Die konstruktive Debatte über KI, für die wir als Community stehen, hat auch eine gesellschaftspolitische Dimension“. Die Aushandlung sei: Wie viel Laissez-faire soll im Umgang mit den Technologien an den Tag gelegt werden, wie viel Beschränkung brauchen sie? Ein andauernder Prozess.

Mit der Frage des „ethischen Umgang mit KI“ hat sich die Wikimedia Foundation bereits vor einigen Jahren zu beschäftigen begonnen – orientiert an der strategischen Ausrichtung 2030 , ausgehend von der Beobachtung, dass „die Entwicklung und Nutzung von Technologie in sozial gerechter und konstruktiver Weise – und die Vermeidung unbeabsichtigter negativer Folgen – eine umsichtige Führung und technische Wachsamkeit erfordert“, wie es in einem White Paper heißt. Eine Feststellung, die heute aktueller denn je scheint.

Die wahrscheinliche Zukunft

Werden Wikipedia-Artikel künftig von Künstlicher Intelligenz verfasst? Laufen wir Gefahr, dass Machine-Learning-Modelle gesellschaftliche Schieflagen verstärken? Und wie wird das Lehren und Lernen von morgen aussehen? Das Aufkommen von Textbots wie ChatGPT schafft neue Herausforderungen – aber auch Chancen.

Jetzt lesen

1) Artikel 3 und 4 der EU-Urheberrechtsreform (vulgo „Richtlinie über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt“ oder „Directive on Copyright and Related Rights in the Digital Single Market“, kurz DSM-Richtlinie von 2019) umgesetzt im deutschen Urheberrechtsgesetz in §§ 60d und 44b:
https://www.gesetze-im-internet.de/urhg/__60d.html
https://www.gesetze-im-internet.de/urhg/__44b.html

#Wikipedia

Unsere Highlights vom Chaos Communication Congress

Spendenkampagne

Erfolgreiche Wikipedia-Spendenkampagne setzt starkes Zeichen für Freies Wissen

SLAPP-Klagen

Wikipedia vor Gericht – was die Bundesregierung gegen Einschüchterungsklagen tun sollte

Illustration: Zwei Personen halten einen Ball

Marginalisiertes Wissen

Wissen braucht Vielfalt – Das Förderprogramm re·shape startet ins dritte Jahr

Kommentare

Dipak Ganguli
9. April 2023 um 14:02 Uhr

I hear my wife screaming in front of her TV- "here we go again, the WIKI whatever disturbing my listening to Tagesschau". I just ignore her and carry on with my research! Some people never learn, never explores, show no curiosity.

Antworten

Cookie	Typ	Dauer	Beschreibung
cli_user_preference			Dieses Cookies speichert, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine personenbezogenen Daten.
cookielawinfo-checkbox-necessary		1 year	Zustimmung der Kategorie "Essenziell".
CookieLawInfoConsent		1 year	Dieses Cookies speichert, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine personenbezogenen Daten.
viewed_cookie_policy	ständig	1 Stunde	Dieses Cookies speichert, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine personenbezogenen Daten.

Cookie	Typ	Dauer	Beschreibung
cookielawinfo-checkbox-einstellungen	0	1 year	Zustimmung der Kategorie "Einstellungen"
pll_language	0	1 year	Das Cookie speichert den Sprachcode der zuletzt besuchten Seite.

Cookie	Typ	Dauer	Beschreibung
_pk_id.1.64ac	0	1 year	Cookie von Matomo
_pk_ses.1.64ac	0	30 minutes	Cookie von Matomo
cookielawinfo-checkbox-matomo		1 year	Zustimmung der Kategorie "Matomo"

Cookie	Typ	Dauer	Beschreibung
_pk_id.1.64ac	0	1 year	Cookie von Matomo
_pk_ses.1.64ac	0	30 minutes	Cookie von Matomo
cookielawinfo-checkbox-matomo-und-heatmap		1 year	Zustimmung der Kategorie "Matomo und Heatmap"