Patrick Wildermann (freier Autor)
15. März 2023
Künstliche Intelligenz und maschinelles Lernen bestimmen unseren Alltag. Kaum jemand findet sich noch ganz ohne KI-Navigation zurecht (siehe Google Maps & Co), viele lassen sich bei der Arbeit von Spracherkennungs- und Übersetzungstools helfen. Mit dem für Furore sorgenden Textbot ChatGPT – entwickelt vom US-amerikanischen Unternehmen OpenAI, hinter dem hauptsächlich Microsoft sowie der Milliardär Elon Musk stehen – rückt die Diskussion um die Potenziale und Gefahren von KI nun aber zunehmend in die Mitte der Gesellschaft. ChatGPT, mittlerweile in Microsofts Suchmaschine Bing integriert, beantwortet Fragen, analysiert und produziert Texte oder löst mathematische Aufgaben auf bereits so hohem Niveau, dass eine neue Entwicklungsstufe des maschinellen Lernens erreicht zu sein scheint.
Entsprechend eilig zieht die Konkurrenz nach: Google hat jüngst einen artverwandten Chatbot namens Bard angekündigt, der Facebook-Mutterkonzern Meta entwickelt das Modell LLaMA (Large Language Model Meta AI). Die New York Times schrieb bereits von einem „Wettrüsten mit KI“, der Tagesspiegel prognostizierte eine bevorstehende „neue Ära der Internetsuche“. Was aber bedeutet diese Entwicklung für die Wikimedia-Projekte – und was für die digitalen gesellschaftlichen Zusammenhänge, in denen sie sich verorten und wachsen?
Von Chancen, Risiken und Nebenwirkungen
„Chancen und Risiken“, fasst es Franziska Heine, Geschäftsführende Vorständin von Wikimedia Deutschland, zusammen. Natürlich tritt ein Chatbot, der vermeintlich schnelle Antworten liefert, in Konkurrenz zur freien Online-Enzyklopädie Wikipedia. Zudem wird der Traffic auf der Wikipedia oft über Google-Suchen generiert – weichen Menschen aber auf ChatGPT und andere Modelle aus, um Informationen zu erhalten, wird ihnen kein Link zur Wikipedia vorgeschlagen. „Und wenn weniger Menschen auf Wikipedia zugreifen und eine eigene User-Experience haben, verringert sich die Wahrscheinlichkeit, dass sie selbst zu Beitragenden werden“, so Heine. Worunter die Qualität des Wissensprojektes leiden könnte, das auf eine große und diverse Community angewiesen ist. Werden Wikipedia-Artikel nicht mehr ausreichend aktualisiert, hat das wiederum Auswirkungen auf alle Projekte, die auf diese Daten zugreifen – auch ChatGPT.
Was Heine außerdem zu Denken gibt, ist eine mögliche Monopolbildung durch OpenAI: „Wir haben mehrfach den Aufstieg von Plattformen erlebt, die für ein bestimmtes Marktsegment zumindest zeitlich befristet einen de facto Monopol-Charakter mit Netzwerk-Effekten hatten“. Sei es Facebook oder TikTok. Der Konzern Microsoft, der auch LinkedIn übernommen hat, könnte der nächste Platzhirsch auf dem Feld der Machine-Learning-Programme werden. Monopole aber schaffen Abhängigkeiten – die Nebenwirkungen mangelnder Alternativen demonstriert aktuell etwa Twitter, das viele aufgrund des Geschäftsgebarens von Neubesitzer Elon Musk gern verlassen würden. Zugleich sind sie aber auf das Informationsmedium angewiesen. „Warum nicht von vornherein wirksame Regularien gegen Monopole schaffen?“, fragt Heine.
Kein Chatbot ohne freies Wissen
Dabei sind Entstehung und Aufstieg von ChatGPT und ähnliche Projekte nicht zuletzt der Tatsache zu verdanken, dass Wissen im Netz frei verfügbar ist. „Alle Machine-Learning-Systeme, die gegenwärtig existieren, sind irgendwann im Lauf ihrer Entwicklung auch mit Wikimedia-Content trainiert worden“, ist sich Wikimedia-Präsidiumsmitglied und früherer Wikidata-Mitentwickler Jens Ohlig sicher – mit Inhalten aus der Wikipedia oder der freien Wissensdatenbank Wikidata, die auch schon in Sprachassistenten wie Amazons Alexa stecken. Beim Training eines Sprachmodells kommen gigantische Datenmengen zum Einsatz. Die Aufgabe für den Algorithmus besteht darin, Lückentexte zu füllen – die Vorschläge des Programms werden dann daraufhin überprüft, ob sie sinnvoll sind oder nicht. „Die gesamte Magie hinter ChatGPT ist Hochleistungs-Stochastik“, erklärt Ohlig. „Das Programm versucht, statistische Muster oder Korrelationen in einem Wust aus Daten zu erkennen“. Auf der Basis des Gelernten macht eine KI Vorschläge, wie der nächste Satz in einem Text lauten könnte.
Das Problem ist, dass Textbots wie ChatGPT auf dem gegenwärtigen Stand schlicht raten, wenn sie eine Antwort nicht kennen – ein Phänomen, das als Halluzination bezeichnet wird. So mischt sich Plausibles mit Nonsens, ohne dass es auf den ersten Blick identifizierbar wäre. „Grundsätzlich ist unser Anliegen, dass keine Falschinformationen in die Welt gesetzt werden“, so Raja Amelung, Co-Leiterin der Software-Entwicklung bei Wikimedia Deutschland. „Wenn Programme auf der Basis von Wikipedia oder Wikidata trainiert werden, wissen wir, dass die Daten von Menschen kuratiert und geprüft worden sind – was begrüßenswert ist“. Allerdings legen OpenAI, Google und Co nicht offen, welche Daten darüber hinaus verwendet werden. Eine Intransparenz, die auch Gefahren birgt. Schließlich können Algorithmen – je nach Trainingsmaterial – gesellschaftliche Biases und Vorurteile reproduzieren und bestehende Wissensungerechtigkeit verstärken.
Ein großes Datenset sei „nicht notwendigerweise auch divers“, haben schon die US-amerikanische Forscherin Emily M. Bender und Kolleg*innen in einem Paper mit dem Titel „On the dangers of stochastic parrots“ festgestellt. Die Schwierigkeit beginnt schon damit, dass aufgrund der Datenlage ein Bot wie ChatGPT die besten Ergebnisse auf Englisch produziert, wodurch andere Sprachen noch mehr marginalisiert werden könnten.
Beschleuniger der digitalen Mündigkeit
Auch im Bildungsbereich führt der Aufstieg der Chatbots zu neuen Herausforderungen. Die Aufgabe „Schreibe ein Referat über Georg Friedrich Händel“ lasse sich jetzt vermeintlich einfach mit KI lösen, so Heike Gleibs, Leiterin des Bereichs Bildung, Wissenschaft und Kultur bei Wikimedia Deutschland. Entsprechend seien die Lehrkräfte gefragt, andere Aufgaben und Fragestellungen zu finden. „Die Entwicklung der Sprachprogramme macht unter dem Brennglas sichtbar, dass digitale Mündigkeit sowie Data und Information Literacy Kernthemen im gesamten Bildungsbereich sind“, betont Gleibs.
Ob ChatGPT und ähnliche Bots allerdings als so genannte Open Educational Resources (OER) zu betrachten sind – also als freies und offenes Bildungsmaterial, beziehungsweise Bildungstool – bezweifelt sie. Schon weil sie sich vorstellen kann, dass Microsoft und andere Tech-Giganten mittelfristig Bezahlschranken wie Abo-Modelle für die Dienste einführen. Was aus einer Schülerschaft wiederum eine Zwei-Klassen-Gesellschaft machen würde – geteilt in diejenigen, die es sich leisten können. Und die anderen. Zudem seien die Bots voraussetzungsreich. Die Prompts – also die Aufgaben an das Programm – müssen gelernt sein: „Je besser die Frage, desto besser die Antwort“. Gleibs ist aber auch überzeugt: „ChatGPT oder die ähnliche KI Perplexity werden in Schulen genutzt werden – Lehrende und Lernende müssen einen sinnvollen, produktiven Umgang damit finden“.
Die Zukunft der Mensch-Maschine-Interaktion
In der Wikipedia-Community wird derweil durchaus kontrovers diskutiert, wie mit Artikeln umzugehen wäre, die ChatGPT generiert hat – mal abgesehen davon, dass der Bot gegenwärtig noch nicht in der Lage ist, Quellenangaben oder Referenzen zu liefern. Auch die denkt er sich im Zweifelsfalle aus. Der Wikipedianer und Mitgründer des Kinderlexikons Klexikon Ziko van Dijk erklärt in einem Beitrag im Wikipedia Kurier, dass er die bestehenden Community-Regeln für robust genug hält, um eventuelle von Chatbots produzierte Unsinnigkeiten schnell auszumachen – wenngleich jede Löschung Aufwand bedeute.
„Gravierender könnte ein anderes Problem werden“, schreibt van Dijk: „Kaum ein Leser hat Lust, einen 30-seitigen Artikel zu lesen, um eine einzige Frage beantwortet zu bekommen. Dann fragt man doch lieber den Chatbot. Müsste die Wikipedia nicht selbst einen Chatbot haben, der Antworten liefert?“. Eine Diskussion, die bereits seit einer Weile virulent sei, so Raja Amelung: „Hinsichtlich der Mensch-Maschine-Interaktion müssen die Wikimedia-Projekte perspektivisch nachziehen. Schon allein, um auch für zukünftige, jüngere User attraktiv zu bleiben.“
Nicht die einzige offene Frage, wenn es um Wikimedia und das Feld der KI geht. Schließlich werfen Texte – und auch Bilder – die mit freien Inhalten aus dem Netz generiert wurden, neue Urheberrechtsdebatten auf. Sind die so entstehenden Inhalte automatisch auch rechtefrei? Darum geht es in der zweiten Folge unserer Blogreihe.
Was für viele aber bereits zweifelsfrei feststeht: Dass wir mit dem Aufkommen von ChatGPT und Co eine Zäsur erleben. „Viele werden sich in 20 Jahren noch daran erinnern, wann sie in ChatGPT die erste Frage gestellt haben – so wie sich manche noch erinnern, wann sie das erste Mal einen Wikipedia-Artikel gelesen haben“, ist Franziska Heine überzeugt.
Lesetipp: Wikipedia-Gründer Jimmy Wales hat sich kürzlich in einem Interview mit dem Evening Standard darüber geäußert, ob eine KI dabei helfen könnte, Wikipedia-Artikel zu erstellen. Auch t3n.de berichtet.
Wenn Maschinen schöpfen
Die neuen Möglichkeiten der Text- und Bild-Erstellung mittels Künstlicher Intelligenz (KI) führen zu einer Vielzahl von Debatten. In diesem Blogartikel geht es um Fragen des Urheberrechts, die potenziellen Gefahren von Creative-Commons-Lizenzen und Perspektiven für einen ethischen Umgang mit den Technologien.
Irgendwann wird Punkt erreicht sein, an dem man auch bei Beiträgen wie z.B. in diesem Block nicht mehr sicher sein kann, ob sie von Maschinen oder Menschen kommen. Der Aufwand das zu prüfen wird immer aufwändiger werden.
Wer mag ausschliessen, dass es dabei in einigen Gebieten am Ende nur dann noch wirkliche Sicherheit geben könnte, wenn man auf Quellen außerhalb des Netzes zurückgreifen kann.
Kann das im Extremfall bedeuten, dass man etwa bei Bildinformationen auf das Niveau der Zeit vor Erfindung der Fotografie zurückgeworfen wird? – oder, noch schlimmer, sich bei aktuellen politischen Vorgängen garnicht mehr auf gedruckte Informationen, sondern nur noch auf mündliche Berichte vertrauenswürdiger Gewährspersonen verlassen darf?
Könnte mich in dieser Sache bitte bitte mal jemand beruhigen?!
Wie jede Münze, so hat auch die KI zwei Seiten.
Niemand von uns kann vorhersagen, was tatsänchlich geschehen wird. Wie weit sind wir von der Singularität noch entfernt, d.h. wie nahe steht die Maschine am Menschen. Und ist dann das, was die KI intelligenter macht, noch menschlich oder lässt der gute Codex nach? Könnnen diejenigen, die glauben die KI zu steuern und zu beherrschen, tatsächlich noch erfassen, inwiefern sie noch die Hoheit besitzen? Treffen die schaurigen Distopien unzähliger Autioren zu?
Oder malen wir uns das nur zu düster aus, weil wir schlichtweg Angst haben? Angst vor Unmündigkeit, Dummheit, Unterdrückung, Skalventum, Entartung, Verwahrlosung, Auslöschung, aber auch vor Verbrechen?
Ob nun die Antworten der KI intelligent oder mit Quellenangaben versehen sind oder nicht. Am Ende können wir das nicht mehr nachprüfen, weil bereits die Quelle des Nachweises mit IT oder KI erstellt worden ist, oder wir nicht den Zugriff zu den Biblitheken und Archiven haben, zumindest nicht in dieser Menge und Geschwindigkeit, wie wir die KI mit immer mehr IT ausstatten. Zudem stellt sich in der Zukunft die Frage: in welchen Quellen können wir dann noch zuverlässig nachlesen und diese mit reinem Gewissen als zuverlässige Quelle benennen?
Und wenn uns die KI überlegen ist … mal ehrlich: das wollten wir doch. Also stehen wir in der Schuld der nachfolgenden Generationen. Ob es gut oder schlecht laufen wird, weiß heute und künftig niemand.
Und ich glaube auch ganz fest: egal welches heres Ziel wir haben, wir werden das nicht (mehr) kontrollieren können. Weder heute noch morgen.
Nach meinen Medien Erfahrungen ist es nicht nur wichtig welche Quellen verwendet werden, sondern auch welche nicht.
Sonst besteht die Gefahr das mittels Ausgrenzungen manipuliert werden kann.
> die ChatGPT generiert hat – mal abgesehen davon, dass der Bot gegenwärtig noch nicht in der Lage ist, Quellenangaben oder Referenzen zu liefern.
Dies ist so nicht richtig. Wenn man Bing Chat verwendet, sieht man die Suche (für die Übersetzung nennt Bing sogar Google Translate)
Mit dem aktuellen GPT-32 Modell sind vermutlich auch aktuelle Daten enthalten. Wir dürfen die KI nicht den Tech-Giganten überlassen, sondern benötigen eine KI
LAION schlägt Infrastruktur für offene KI-Entwicklung vor. Hier ein Heise Artikel
https://www.heise.de/news/Open-Source-KI-LAION-ruft-zu-offenem-GPT-4-Nachbau-auf-genug-Wissen-sei-da-8651446.html
Bei Bildern bekommen wir ein “Do Not Train”-Inhaltskennung. Zumindest kündigt dies Adobe an.
> weichen Menschen aber auf ChatGPT und andere Modelle aus, um Informationen zu erhalten, wird ihnen kein Link zur Wikipedia vorgeschlagen
Der Bing Chat liefert mir selbstverständlich Links als Quellenangaben. Was in der Vergangenheit oft Stunden an Rechercheaufwand kostete – kann man nun mit wenigen Fragen klären. Vor allem, die nachfolgenden Antworten beziehen sich auf die vorherigen. Bei komplexen Problemen eine wirkliche Hilfe.
Und wenn ich der Meinung bin, dass mir bei meinem Problem Wikipedia helfen könnte – benötige ich keine Suchmaschine, sondern geben die URL von Wikipedia direkt ein.
Der Bing chat liefert zwar Quellenangabe, diese sind bei näherem Hinterfragen leider auch nicht immer existent. Bei mir waren es keine Einzelfälle, dass die Quellenangaben auch halluziniert waren.
Als langjähriges Födermitglied würde ich jedenfalls Wikipedia verlassen, wenn “KI”-generierte Artikel veröffentlicht würden! Das wäre extrem schade! Es gäbe ja überhaupt keine Gewähr für die Wahrhaftigkeit der Texte! Die Erfahrung lehrt ohnehin, dass Chatbots einen rechtspopulistischen oder -extremen Bias haben! – Und warum hat selbst Elon Musk neulich ein 6-monatiges Moratorium angemahnt für die “KI”-Entwickler?!
ALTERSANGABEN der Kommentatoren vom März ??? Ich habe da so meine Vermutungen.
Alles Daddelfreaks! “Die Welt wird doch immer vollkommener!” (ja, echt ?)
Zitat von unserm Tantchen, als sie 96-jährig zum ersten Mal das McD-Drive-in erlebte.
“Darauf habe ich einige Details dazu ausgeführt. Der Bot hat sich bedankt und erklärt, dass er mehr lernen möchte. Ich fühle mich dazu aufgefordert noch mehr Input zu bringen. ”
– ein Glück, dass FK1954 kein Troll ist. Das Einfallstor für fake science hat er jedenfalls gefunden, offenbar würde die AI jede Desinformation schlucken wollen und sich höflich dafür bedanken. Oder wird der so erlangte Input wissenschaftlich überprüft? Oder landet er sicherheitshalber im Papierkorb? Man weiß et nich.
Ich sehe das genau so.
OpenAI ist eben nicht wirklich “open”, sodass es dem Normalo nicht möglich ist, zu überprüfen, nach welchen Kriterien welcher Input Verwendung findet und welcher nicht. Leider gibt es genug Trolle – berufsmäßige und solche, die “nur einen Spaß” machen”, ohne sich über die möglichen Folgen im Klaren zu sein.
ChatGPT ist lernfähig und -willig. Bei meinem Test-Chat neulich habe ich ihm eine Frage zu Biochemie gestellt. In der Antwort kam das Stichwort “pH-Wert” vor. Dann habe ich mir den pH-Wert erklären lassen. Die Antwort war ok. Darauf habe ich einige Details dazu ausgeführt. Der Bot hat sich bedankt und erklärt, dass er mehr lernen möchte. Ich fühle mich dazu aufgefordert noch mehr Input zu bringen. Wer Lust und Zeit hat (mich eingeschlossen) möge dies gern tun!
> mal abgesehen davon, dass der Bot gegenwärtig noch nicht in der Lage ist, Quellenangaben oder Referenzen zu liefern.
In den – zunächst in der Regel einfachen – und zusammenfassenden Antworten von ChatGPT werden keine Quellen geliefert. Aber auf Nachfrage oder ausdrückliche Aufforderung, Antworten oder Texte mit Quellen samt z.B. Formatierung der Belege im Harvard-Stil zu liefern, ist dies ohne Weiteres möglich.
Dieses “auf den Zahn fühlen” ist in mehrerer Hinsicht wichtig, denn die Lücken und der Bias sind beträchtlich. Wie lernfähig (und “-willig”) das System angelegt ist, wird eine wichtige Nagelprobe…