Wochenschau (144)

Sind wir zu langsam für KI, die immer schneller immer besser wird?

Pablo Xavier war gerade auf einem Pilztrip, als ihm die Idee für das Bild mit dem Papst kam. Das erzählte er der Plattform „BuzzFeed News“, nachdem sein Franziskus im Balenciaga-Dauenmantel viral gegangen war. Der 31-jährige Bauarbeiter aus Chicago, der in einer katholischen Familie aufgewachsen ist, generierte das Bild mit der KI-Software Midjourney. Nachdem einer seiner Brüder im November gestorben war, probiere er sie regelmäßig aus, erzählte er. Es ist sein Umgang mit der Trauer. „Ich habe versucht, einen Weg zu finden, etwas Lustiges zu machen“, sagte Pablo Xavier.

Das Fake-Bild vom Pontifex in der weißen Riesen-Jacke haben Millionen von Menschen geteilt. Viele hielten es für echt. Der Balenciaga-Papst demonstriert damit auf skurrile und auch etwas beängstigende Art, welche enorme Leistungssteigerung die frei zugänglichen KI-Werkzeuge erfahren haben. Während vor nicht all zu langer Zeit noch Bildfehler, insbesondere unvollkommene Hände, die KI-Herkunft eine Bildes verrieten, wird es für das Auge immer schwieriger, das zu bewerten.

Es ist nicht das erste Mal, dass KI-generierte Bilder Aufmerksamkeit auf sich ziehen. Im Zuge aufkommender Deep Fakes schauten wir mit schaurigem Interesse auf ein gefälschtes Video in 2019, das Nancy Pelosi, damals Sprecherin des US-Repräsentantenhauses, angeblich betrunken zeigte. Wir diskutierten den Missbrauch der Technologie zur Erstellung von Deep-Fake-Pornografie gegen den Willen der abgebildeten Frauen.

Doch dass ein falsches Bild so viele Menschen so schnell täuschen konnte, wie es beim Dauenjacken-Papst der Fall war, ist neu. „Das Meme wurde wahrscheinlich viral wegen der Unsicherheit darüber, ob es echt oder gefälscht war“, erklärte Arvind Narayanan, Professor für Informatik an der Princeton University und KI-Experte, in der Washington Post.

Digitale Übertölpelung

Nachdem der Kater des kollektiven Getäuschtwerdens nachließ, begann erwartbarerweise die Diskussion um die Gefahren KI-gestützter Bildgenese. Der Umstand, dass wir mit unserer gewohnten Medienkompetenz, Synthetisches von Echtem zu unterscheiden, mit dem Tempo der technischen Verbesserungen offensichtlich nicht mithalten, zeigte sich beim Papst-Bild sehr anschaulich. Es ist die digitale Übertölpelung. Der Newsletter-Autor des Garbage Day Ryan Broderick nannte es „den ersten echten KI-Fehlinformationsfall auf Massenebene“.

Auch andere gefälschte Bilder ließen uns bereits stutzen. Emmanuel Macron als vermeintlicher Müllmann, Gillet-Jaune-Träger und Demonstrierender zum Beispiel. Oder Trumps angebliche Verhaftung.


Midjourney, DALL E2, OpenAI und Dream Studio gehören zu den Software-Optionen, die jeder nutzen kann, der fotorealistische Bilder nur mit Hilfe von Textanweisungen erstellen möchte. Eine spezielle Ausbildung ist nicht erforderlich. Es geht also um die Gefahr, dass jeder komplex inszenierte Bilder mühelos erschaffen kann. Bilder, die zwar eine Lüge sind, aber realistisch genug aussehen, um für wahr gehalten und aus Propaganda- oder Werbezwecken verbreitet zu werden.

KI-generiertes Feindbild

Ein Beispiel, das für mich wesentlich erschreckender war als der Papst, Trump und Macron, war ein Instagram-Post des stellvertretenden Vorsitzenden der AfD-Bundestagsfraktion, Norbert Kleinwächter. Darauf zu sehen war eine Gruppe migrantisch gelesener Männer mit weit aufgerissenen Mündern und aggressiver Mimik. Das ist keine visuelle Dogwhistle-Politik, die da mithilfe der Künstlichen Intelligenz erschaffen wurde, hier wird ein Feindbild generiert – im wahrsten Sinne des Wortes. Und selbst wenn man um die Künstlichkeit des Bildes weiß, darf man die unterschwellige Wirkung solcher Bilder, die vermutlich in der Zukunft mehr werden werden, nicht unterschätzen.

AfD macht mit KI-generiertem Foto Stimmung gegen Geflüchtete
AfD macht mit KI-generiertem Foto Stimmung gegen Geflüchtete. Screenshot: Instagram / Norbert Kleinwächter

Bei Trump, Macron und dem Papst, also prominenten, mächtigen Personen, erfolgte sofort ein öffentliches Debunking – sowohl von den Abgebildeten selbst, als auch auf den Plattformen (auf Twitter wurden beispielsweise alle Bilder von Trump angeblicher Verhaftung mit einem Warnhinweis versehen) sowie durch das Publikum. Dagegen kann man bei etlichen generierten Bildern anonymer Achetypisierungen in Telegram-, geschlossenen Facebook-, Whats-App-Gruppen nicht darauf hoffen, dass die Unechtheit des Materials sofort erkannt, geschweige denn moniert wird.

Wo wir jetzt noch oftmals unbeholfene Fotomontagen haben, ist nun eine Flut fotografischer Inszenierungen zu erwarten. Christian Drosten oder Karl Lauterbach könnten im Krankenhausbett liegend gezeigt werden, Luisa Neubauer oder Greta Thunberg fleischessend in Flugzeugen. Oder eben nicht-weiße Männer bei kriminellen Aktionen.

Neues Angebot narrativer Manipulation

Ein Bild kann eine narrative Wirkung haben. Das erklären auch die amerikanische Soziologin Catherine Kohler Riessman in „Narrative Methods for the Human Sciences“ sowie die britische Philosophin Gillian Rose in „Visual Methodologies“. Deshalb sind Bilder besonders effektiv darin, Menschen oder Gruppen optisch zu Gegenspielern machen – zu den Anderen. Das ist einer der Aspekte, die uns am meisten beschäftigen sollten: die Selbstverständlichkeit, mit der Ängste und Ressentiments technisch nun sichtbar gemacht werden können, indem sie teilbar, bildlich und dementsprechend sinnlich erfahrbar sind.

Der „Guardian“-Essayist James Bridle schrieb:

„In ihrem Versuch, die gesamte menschliche visuelle Kultur zu verstehen und zu reproduzieren, scheinen diese Generatoren unsere dunkelsten Ängste neu erschaffen zu haben. Vielleicht ist es ein Zeichen dafür, dass diese Systeme wirklich sehr gut darin sind, das menschliche Bewusstsein nachzuahmen, bis hin zum Schrecken, der sich in den Tiefen der Existenz verbirgt: unsere Ängste vor Schmutz, Tod und Korruption.[ …] Der Dreck und der Abscheu vor Leben und Tod wird in uns bleiben und man muss sie übernehmen, ebenso wie Hoffnung, Liebe, Freude und Geschmack der Entdeckung”.

Dadurch ist es fast zweitrangig, ob wir auf Anhieb erkennen, dass ein Bild KI-generiert ist oder augenblicklich die Information erhalten, dass es nicht echt ist. Dass wir einmal gesehen haben, dass es so sein könnte, reicht oftmals für das manipulative Moment. In dem Essay „The Art of Political Lying“ schreibt der irische Schriftsteller Jonathan Swift: „Wenn eine Lüge eine Stunde lang geglaubt wird, hat sie ihren Zweck erfüllt.“

Gelogen wurde schon immer

Wie sehen also eine Medienlandschaft und eine digitale Welt aus, in der visuelles Material mehrheitlich synthetisch sein wird und wir nicht mehr in der Lage sein werden, den Unterschied zu erkennen? Welche Herausforderung an unsere Medienkompetenz stellen die täuschend echt aussehenden Falschbilder?

Der oben bereits zitierte Arvind Narayanan ist Informatiker und Professor an der Princeton University und schreibt mit seinem Doktoranden Sayash Kapoor gerade das Buch „AI Snake Oil“. Sie erklären darin, dass die allgemeine Sorge überzogen sein könnte, „weil die Kosten der Lügenproduktion nicht der begrenzende Faktor bei Beeinflussungsoperationen sind.“ Anders ausgedrückt: Gelogen wurde schon immer, unabhängig davon, wie technisch schwer oder leicht es war, wie kostenintensiv oder günstig. Sie vergleichen es mit der Flut an täglichen Spam-Mails, die wir bekommen:

„Die Herausforderung für Spammer besteht wahrscheinlich nicht in den Kosten für die Erstellung von Spam-E-Mails, sondern darin, den winzigen Bruchteil der Menschen ausfindig zu machen, die potenziell auf den Betrug hereinfallen werden. Es gibt einen Aufsatz, in dem argumentiert wird, dass Spammer genau aus diesem Grund alles daran setzen, ihre Nachrichten weniger überzeugend zu gestalten. Auf diese Weise ist der Erhalt einer Antwort ein stärkeres Signal für die Verwundbarkeit des Empfängers.”

In der Tat kommen wir mit der täglichen Flut an Spam relativ gut zurecht, unsere Demokratie leidet nicht unter der Viagra-Werbung und den angeblichen Erbschaften in Millionenhöhe. Andererseits wurden aber auch unter anderem mithilfe von Fake News auf What’s App, Twitter und Facebook Trump und Bolsonaro zu Präsidenten und ein Vereinigtes Königreich ein Staat ohne LKW-Fahrer und Schnittblumen.

Dieser Ansicht stellt Journalist Ezra Klein in seiner Kolumne vom 12. März die Schwierigkeiten geistiger Trägheit entgegen, was die Entwicklung der KI angeht:

„Es gibt ein natürliches Tempo für menschliche Überlegungen. Vieles geht kaputt, wenn uns der Luxus der Zeit verwehrt wird. Aber das ist die Art von Moment, in dem wir uns meiner Meinung nach jetzt befinden. Wir können uns nicht den Luxus leisten, so langsam zu reagieren, zumindest nicht, wenn sich die Technologie so schnell weiterentwickelt.”

Ein Faktor ist, dass die großen Technologieunternehmen aus wirtschaftlichen Gründen den Fortschritt beschleunigen wollen, insbesondere China und die USA befinden sich im Kopf-an-Kopf-Rennen, was die Effizienzsteigerung von Künstlicher Intelligenz anbelangt. Das Bild des Balenciaga-Papstes ist hier gewissermaßen der Moment einer kulturellen Phasenverschiebung, was unser technisches Verständnis und die unverstehbaren Fähigkeiten der KI anbelangt. An unserer Überraschtheit und dem falschen Umgang mit dem Foto, also dass wir es für echt halten und verbreiteten, merken wir, dass KI und Gesellschaft schon in verschiedenen Geschwindigkeiten operieren.

Zu langsam für den den Fortschritt?

Mit der „Theorie der kulturellen Phasenverschiebung“ beschreibt William Ogburn 1922 in seinem Werk „On Culture and Social Change“ die Idee, dass sich immaterielle Werte nicht so schnell entwickeln, wie die Technik fortschreitet.

Dadurch muss es immer zu zeitlichen Asymmetrien innerhalb einer Gesellschaft kommen. Das bezieht sich allerdings auf die Verbreitung innerhalb einer Gesellschaft, als beispielsweise ein Teil der Amerikaner schon Strom hatte, ein anderer nicht. Oder ein Teil der Menschen im Deutschland der Neunziger und 2000er Jahre Internetanschlüsse und andere nicht. Was aber, wenn die Technik selbst in einer anderen Zeitzone ist als wir? Machen wir den technischen Fortschritt dann langsamer oder uns schneller?

Ezra Klein erklärt:

„Eines von zwei Dingen muss geschehen. Die Menschheit muss ihre Anpassung an diese Technologien beschleunigen, oder es muss eine kollektive, durchsetzbare Entscheidung getroffen werden, die Entwicklung dieser Technologien zu verlangsamen. Vorzuschlagen, dass wir langsamer werden oder sogar ganz aufhören sollten, erscheint kindisch. Wenn ein Unternehmen langsamer wird, wird ein anderes schneller werden. Wenn ein Land eine Pause einlegt, werden die anderen mehr Druck machen. Fatalismus wird zur Handlangerin der Unvermeidlichkeit, und Unvermeidlichkeit wird zur Rechtfertigung der Beschleunigung.”

Wie als Antwort darauf veröffentlichten der Historiker Yuval Noah Harari sowie Tristan Harris und Aza Raskin, die Gründer des Center for Humane Technology ihren Gastbeitrag „Sie können die blaue Pille oder die rote Pille haben, und wir haben die blauen Pillen nicht mehr” in der New York Times. In diesem empfehlen sie eine Verlangsamung der KI-Forschung, um den Menschen die notwendige Zeit zu geben die Technologie und ihre Konsequenzen besser zu meistern.

Diese Woche riefen auch etwa 1.000 KI-Entwickler:innen, Philosophen:innen und Forscher:innen nun in einem offenen Brief dazu auf, ein halbes Jahr Pause einzulegen bei der Forschung und Entwicklung der KI-Systeme, die noch effizienter GPT-4 werden können. Apple-Co-Gründer Steve Wozniak und Twitter-Besitzer Elon Musk haben auch unterzeichnet. Das Future of Life Institute, das die Möglichkeiten und Gefahren der KI erforscht, ist verantwortlich für den offenen Brief.

Ob der Geist durch kollektive Fortschritts-Entschleunigung vorläufig zurück in die Hülle kehrt, bleibt abzuwarten. Bis dahin gilt es aber zumindest die gegenwärtigen Schäden zu beheben und weitere zu verhindern. Die KI-Plattformen setzen sich Regeln. Midjourney hat sein kostenfreies Angebot gerade eingestellt, zudem ist beispielsweise der Name des chinesischen Präsidenten Xi Jinping verboten. „Wir wollen das Drama minimieren“, erklärte Gründer David Holz. Der Journalist, der die Bilder einer hypothetischen Verhaftung von Donald Trump erzeugt und verbreitet hat, wurde von Midjourney verbannt. Zudem wurde dort das Wort „arrested“ verboten.

Die sozialen Netzwerke zensieren die Bilder zwar nicht, haben aber dennoch Maßnahmen ergriffen. Twitter erklärt, dass es gegen „manipulierte Medien“ vorgehen will und sich das Recht vorbehält, im Falle eines falschen Bildes einen Kommentar unter das Bild zu setzen. TikTok erklärt, dass es Deep Fakes über Privatpersonen vollständig verbietet.

Pablo aus Chicago, der das Papst-Bild generiert hatte, wurde auf Reddit gesperrt, wo er das Bild als erstes gepostet hatte. Es habe ihn verstört, dass Menschen dachten, sein Papst sei echt, zudem fühle er sich „beschissen“, weil es benutzt wird, um die Ausgaben der Kirche zu kritisieren. Er sagt: „Es ist crazy.“

5 Kommentare

  1. Die Geister die ich rief. Erst viel Geld in OpenAI pumpen und dann plötzlich auf vernünftigen und besorgten Erdenbürger machen. Möge mal einer schlau werden aus diesem Musk.

  2. Ich habe in den letzten Tagen mit Kolleg:innen ein Statement zu KI und Fotografie für einen großen Fotografenverband, FREELENS, geschrieben und ich wünschte ich hätte diesen Text vorher gelesen. Wir haben viele Punkte ebenfalls aufgegriffen – aber nicht so gut. Sehr guter Text, bravo! Ob das mit der Zensur der KI-Generatoren klappt, wage ich sehr zu bezweifeln. Und zu verbieten, ausgerechnet XI zu prompten liegt wohl eher daran, dass man befürchtet, den chinesischen Markt zu verlieren. Die Büchse der Pandora ist offen und die Petition, sie wenigstens für 6 Monate zu schliessen (was für eine echte Reaktion der Politik viel zu kurz ist), wurde bis jetzt von nicht einmal 2500 Personen unterzeichnet.

  3. Die naheliegende Reaktion wird sein, dass man Bildern grundsätzlich nicht mehr glaubt.
    Mittelfristig wird das auch ein Argument für mehr Totholzkommunikation sein, denn ein Bot, der die Wikipedia schneller umschreiben kann, als alle menschlichen Bearbeiter gleichzeitig das korrigieren, hat trotzdem keinen Zugang zu Lexika aus Papier.

  4. „Der Umstand, dass wir mit unserer gewohnten Medienkompetenz, Synthetisches von Echtem zu unterscheiden, mit dem Tempo der technischen Verbesserungen offensichtlich nicht mithalten, zeigte sich beim Papst-Bild sehr anschaulich.“
    Wie wahr….-
    Mein Eindruck, als ich das Bild von der Festnahme Trumps zum erst mal sah: Fake – denn in der journalistischen Berichterstattung gab es keinen Kontext, der auf so eine Entwicklung hingedeutet hatte – schon gar nicht das optische Umfeld, das die Festnahme bei einer Demonstration vermuten lässt.
    Beim Papstbild war es schon anders. Es war ungewöhnlich, ihn in einer Daunenjacke zu sehen – wenn man die Kleiderordnung der Klerikalen in öffentlichen Räumen kennt – aber unwahrscheinlich war es nicht. Aber der optische Eindruck, den die Jacke verbreitet, war der des „Michelin“ – Männchens, was es surrealistisch erscheinen liess – und da muss man das Michelin Männchen erst einmal kennen, um das so einzuordnen.
    Ich bin gespannt, ob und wie sich diese Entwicklung einhegen lässt. Ein Appell, die Entwicklung zu verlangsamen oder gar zu stoppen, wird höchstens die Wahrnehmbarkeit im Öffentlichen Raum verringern – aber die Konkurrenz um die Technologieführerschaft wird in den Laboren weitergehen. Ich denke, Vergleiche im Umgang mit Forschungen an biochemischen und biologischen Substanzen sind angebracht.
    Die Verlinkungen sind prima und dafür schätze ich die Arbeiten von der Autorin.
    Eine Entwicklung die Übermedien noch wichtiger macht.

  5. @Mycroft (#2):

    „Mittelfristig wird das auch ein Argument für mehr Totholzkommunikation sein, denn ein Bot, der die Wikipedia schneller umschreiben kann, als alle menschlichen Bearbeiter gleichzeitig das korrigieren, hat trotzdem keinen Zugang zu Lexika aus Papier.“

    Das ist übrigens auch seit Langem schon ein Argument für gedruckte Bücher: Was auf einem Kindl abrufbar ist, lässt sich jederzeit zentral umschreiben oder löschen. Was bei tausenden Leuten im Regal steht, verschwindet nicht so leicht.

    In „Fahrenheit 451“ ist die Auslöschung des Menschheits-Gedächtnisses ein mühseliges Unterfangen – wenn dieses Gedächtnis auf zentralen Servern gespeichert ist, geht es ganz leicht.

Einen Kommentar schreiben

Mit dem Absenden stimmen Sie zu, dass Ihre Angaben gemäß unseren Datenschutzhinweisen gespeichert werden. Ihre E-Mail-Adresse wird nicht veröffentlicht.