Franziska Kelch
12. Februar 2024
Als Stefan Motz 2005 die Idee hat, dass man aus Wikipedia-Artikeln mit Text-to-Speech-Technologie (TTS) doch Podcasts machen könnte, klingen Sprachaufnahmen mit TTS noch so, als ob ein Roboter mit Schluckauf in eine Blechdose spricht. An ChatGPT ist noch gar nicht zu denken. Trotzdem sichert sich der Softwarearchitekt die Domain Wikipodia.de
Heute, 19 Jahre später, ist die technologische Entwicklung deutlich weiter und Motz produziert täglich einen Podcast mit KI.
Du lässt ja den jeweiligen Wikipedia-Artikel des Tages erstmal von ChatGPT zu einem Skript umbauen. Und daraus wird dann mittels Text-to-Speech (TTS) der tägliche Wikipodia-Podcast. Du schreibst, dass Du das auch deshalb machst, weil man einen ganzen Wikipedia-Artikel nicht einfach so einem TTS Werkzeug zur Verarbeitung geben kann. Magst Du einmal kurz erklären, warum das so ist?
Stefan Motz: Das liegt zum einen daran, dass herkömmliche Text-to-Speech-Interpreter nicht alles interpretieren können, was in einem Wikipedia-Artikel steht. Nehmen wir als Beispiel den Podcast vom 21. Januar 2024. Darin geht es um die Eishockey-Legende Georges Vézina. Der Wikipedia-Artikel beginnt mit: Georges Joseph Gonzague Vézina ([ʒɔʁʒ vezina]; * 21. Januar 1887 in Chicoutimi, Québec; † 27. März 1926 ebenda) war ein kanadischer Eishockeytorwart. Der Text-to-Speech Interpreter kann die Symbole für „geboren“ und „verstorben“ nicht interpretieren. Damit geht der Sinn für die Hörenden verloren.
Hier kann ChatGPT helfen, und den Text zunächst umformen, so dass die TTS-Engine ihn gut lesen kann. Der Prompt, den ich dafür benutze, ist: Bereite den Text als Vorlage für eine Sprachausgabe (TTS) auf: [Text]. Das ergibt dann die Textausgabe: Georges Joseph Gonzague Vézina, geboren am einundzwanzigsten Januar achtzehnhundertsiebenundachtzig in Chicoutimi, Québec, und verstorben am siebenundzwanzigsten März neunzehnhundertsechsundzwanzig ebenda, war ein kanadischer Eishockeytorwart.
Außerdem enthalten Wikipedia-Artikel häufig Tabellen und Aufzählungen, die zwar vorgelesen werden können, aber für den Zuhörer nicht gut nachvollziehbar oder hilfreich sind.
Jeder Podcast ist ja eine Zusammenfassung vom Artikel des Tages und dauert um die 5 Minuten. Warum hast Du Dich dafür entschieden, Artikel zusammenfassen zu lassen? Und warum nimmst Du immer den Artikel des Tages?
Es gibt gleich mehrere Beweggründe für kurze Zusammenfassungen. Der erste ist: Ich möchte jeden Podcast selbst hören. Nicht zuletzt, um zu kontrollieren, dass die KI nicht – trotz aller inhärenten Regeln von ChatGPT – Unsinn von sich gibt. Darüber hinaus empfinde ich persönlich die Qualität der Sprachausgabe noch nicht gut genug, um länger konzentriert zuzuhören. Die Auswahl der Zusammenfassung liegt bei der KI.
Ich habe mich ganz bewusst für die Artikel des Tages entschieden, da sie aus der Liste der exzellenten Artikel ausgewählt sind. Mir war es wichtig, besonders hochwertige Inhalte als Grundlage für den Podcast zu haben.
Und, hat ChatGPT schon mal Unsinn von sich gegeben?
Bisher ist das, soweit ich das beurteilen kann, noch nicht passiert. Aber ich gehe fest davon aus, dass es passieren wird.
Das Skript, das ChatGPT aus dem Wikipedia Artikel macht, liest Du nicht selbst vor, sondern hast dafür eine Stimme durch eine KI generieren lassen. Welche Anforderungen hast Du an die künstliche Stimme und wie hast Du sie mit KI erstellt?
Der Klang der Stimme bzw. der Stimmen sollte so gefällig wie möglich sein. Die Stimme darf nicht zu monoton sein, damit die Zuhörenden auch wirklich die rund 5 Minuten folgen können. TTS-Engines haben meines Erachtens erst in den letzten Jahren Stimm-Modulationen, die das Vorlesen längerer Texte erlauben. Da Wikipodia ein reines Hobby-Projekt ohne Einnahmen ist, darf die TTS Konvertierung nicht zu teuer sein. Für die Konvertierung von Text in Sprache zahle ich bei OpenAI derzeit etwa 0,12 US Dollar pro Folge. Fast noch wichtiger als die Kosten sind die Lizenzbedingungen; diese müssen – so wie bei OpenAI – eine Veröffentlichung und langfristig freie Nutzung erlauben.
Wenn man sich einen der Podcasts auf Wikipodia anhört, merkt man: Hier geht es um die Vermittlung von Fakten. Aber der Podcast ist im Vergleich zu dem zugrunde liegenden Wikipedia-Artikel erzählerischer. Die KI-Stimme fordert die Zuhörenden auch auf, sich in eine bestimmte Situation oder Person zu versetzen, rhetorische Fragen strukturieren den Inhalt. Warum hast Du Dich entschieden, einen Artikel auf diese Art und Weise aufzubereiten?
Meiner persönlichen Überzeugung nach funktionieren Podcasts nicht als reines Vorlesen von Fakten. Ich bin großer Podcast-Fan und höre neben Unterhaltung und News auch Podcasts, die sich um faktisches Wissen drehen, wie Eine Stunde History oder IQ Wissenschaft und Forschung. Solche Formate mag ich nicht nur inhaltlich, sondern sie leben für mich von den Vortragenden und ihrer Art zu kommentieren. Und diese Kommentare sind manchmal explizit, manchmal aber auch nur über Tonlage und Ausdruck transportiert. Genau so, wird ein KI-Podcast das so schnell nicht erreichen.
Aber wie bekommt man es hin, einen enzyklopädischen Text so zusammenfassen und umschreiben zu lassen, dass er so klingt, wie ein Mensch, der anderen Menschen etwas erzählt und die Zuhörenden anspricht?
Das war erstaunlich einfach. In meinem Prompt bzw. in der Konfiguration für die KI steht: Die Zusammenfassung muss so geschrieben sein, dass sie als Skript für einen Podcast verwendet werden kann. Die Sätze sollen einfach sein und wenig Fachjargon enthalten. Der Text soll das Engagement des Zuhörers fördern, indem Fragen eingebaut werden.
Was die Bewertung der Themen angeht, um die es in einem Artikel geht, war ich selbst von einigen Podcast-Skripten sehr überrascht. Die KI wählt oft Formulierungen, die ich selbst nie wählen würde. Grundsätzlich bin ich mit dem Ergebnis jedoch zufrieden, insbesondere bei sensiblen Themenbereichen. Ein Beispiel dafür ist der Podcast zum Artikel Foto vom Torhaus Auschwitz-Birkenau. Die Zusammenfassung am Ende des Podcasts enthält im Schlussteil den Satz: [Das Foto] ermahnt uns, die Geschichten derer, die dort gelitten haben, nicht zu vergessen und uns für eine Welt einzusetzen, in der so etwas nie wieder passiert. Auch beim Podcast vom 8. Feburar zur S-Mine ist die Zusammenfassung aus meiner Sicht gelungen. Sie enthält den Satz: Während wir diesen Podcast beenden, lade ich Sie ein, über die Rolle nachzudenken, die jeder von uns bei der Förderung des Friedens und der Sicherheit spielen kann.
Daran sieht man auch, wie wichtig die Qualität der Trainingsgrundlagen für KI sind. Nicht auszudenken, wenn der KI als Trainingsgrundlage rechtsradikale, antisemitische oder militante Inhalte bei diesen Artikeln gedient hätten.
Und, wirst Du mit Wikipodia weitermachen?
Ja, denn für mich ist diese Art des podcastens auch ein Technologie-Experiment. Ich will sehen, ob und wie sich der Podcast verändert, wenn eine neue Version von ChatGPT rauskommt oder neue Stimmen. Außerdem möchte ich auch mal probieren, einen Podcast mit einem anderen KI System, wie zum Beispiel Google Gemini, zu machen.