Medien blockieren Internet-Archiv, das vor allem Journalisten nutzen
Das Internetarchiv „Wayback Machine“ ist für Journalisten bei Recherchen im Netz oft unverzichtbar. Doch jetzt behindern ausgerechnet Medienhäuser die Arbeit des gemeinnützigen Angebots. Hintergrund ist ein Konkurrenzkampf der Verlage mit den mächtigen KI-Anbietern.
Papier vergisst nicht. Menschen schon. Im analogen Leben werden wichtige Dinge daher gerne in Schnellheftern, Aktenordnern oder Klarsichtfolien festgehalten. Im Internet übernimmt unter anderem die „Wayback Machine“ diese Rolle. Das ist ein öffentliches Archiv, das seit den 1990ern Versionen des Internets speichert. Wer also wissen will, was auf einer Webseite vor drei Jahren stand, klickt sich einfach durch die in der „Wayback Machine“ archivierten Momentaufnahmen. Dahinter steht die gemeinnützige Stiftung „Internet Archive“.
Der Nutzen, gerade für Journalisten und Medien, ist enorm. Gerichte akzeptieren die archivierten Seiten des Tools als Beweismittel. Faktenchecker der „Tagesschau“ haben damit schon Verschwörungstheorien entkräftet, und die „Deutsche Welle“ (DW) empfiehlt die „Wayback Machine“ als wichtiges Recherchetool für alle mit Internetzugang.
Doch laut eines Berichts des US-amerikanischen Medienmagazins „Nieman Lab“ haben weltweit mehr als 240 Medienunternehmen inzwischen den Zugriff des „Internet Archive“ auf ihre Seiten eingeschränkt, darunter die „New York Times“ oder der „Guardian“. In Deutschland gehören dazu unter anderem der „Spiegel“ und die „Deutsche Welle“.
Kostenloser KI-Trainingsplatz
Die Autorin
Foto: Wildermuth
Janina Wildermuth berichtet als freie Journalistin hauptsächlich aus Nordeuropa. Sie arbeitet für den Deutschlandfunk, „Neues Deutschland“ und zwei Lokalzeitungen in Norwegen. Sie hat Nordeuropa-Wissenschaften in Berlin studiert und schließt gerade ihren Master in investigativem Journalismus in Norwegen ab.
Das ist bemerkenswert, weil diese Häuser so nun ein Angebot boykottieren, von dem ihre Journalisten selbst profitieren. Hinter diesem vermeintlichen Widerspruch steckt allerdings die Angst vor viel mächtigeren Konkurrenten. Denn der Grund für das digitale Hausverbot ist die Sorge von Medien, dass ihre in der „Wayback Machine“ archivierten Inhalte unerlaubt zum Training von KI-Modellen genutzt würden.
Tatsächlich könnte das laut Berichten häufig der Fall sein. Bereits 2023 hatte etwa die „Washington Post“ einen KI-Trainingsdatensatz von Google analysiert. Von den rund 15 Millionen darin enthaltenen Web-Adressen belegte die der „Wayback Machine“ Platz 187 der am häufigsten vorkommenden Domains. Das ist für die Verlage ein Problem, weil es bislang keine Regelung gibt, die das Urheberrecht journalistischer Inhalte gegenüber KI-Modellen wirksam schützt – und erst recht keine Aussicht auf Vergütung seitens der Tech-Konzerne.
Eine vermeintliche Antwort auf dieses Problem ist eine Datei namens robots.txt. Diese kann man sich als ein „Zutritt verboten“-Schild vorstellen, das den sogenannten „Crawlern“, also Datensammlern, mitteilt, auf welche Bereiche einer Webseite sie zugreifen dürfen und auf welche nicht. Rechtlich bindend ist das nicht. Und auch technisch kann der Crawler das Verbotsschild einfach ignorieren. Praktisch ist es für Medienunternehmen kaum möglich, KI-Bots vollständig vom Zugriff auf ihre Inhalte auszuschließen.
Wie der „Spiegel“ die Blockade begründet
Zudem bleibt das bekannte KI-Dilemma der Medienhäuser ohnehin bestehen. Je stärker sie blockieren, desto weniger Sichtbarkeit erhalten möglicherweise ihre Inhalte bei ChatGPT und ähnlichen Sprachmodellen. Deshalb schließen einige Deals mit einzelnen Techkonzernen. Meist lautet die Vereinbarung: Das Unternehmen erhält Zugriff auf die Inhalte der Verlage, diese bekommen im Gegenzug eine Vergütung und Unterstützung bei eigenen KI-Projekten.
Der „Spiegel“ hat etwa seit fast zwei Jahren einen solchen Vertrag mit der KI-gesteuerten Suchmaschine Perplexity. Zudem zeigt ein Blick auf die robots.txt-Datei, dass der „Spiegel“ auch mit OpenAI experimentiert, der Firma hinter ChatGPT. Auf Übermedien-Anfrage heißt es allerdings, dass die „testweise für ausgewählte Ressorts erfolgende Freischaltung bestimmter OpenAI-Crawler nicht auf Basis einer vertraglichen oder sonstigen Vereinbarung“ beruhe. Vielmehr führe man regelmäßige Tests durch, um das Verhalten der Crawler und mögliche Auswirkungen auf das eigene Angebot besser zu verstehen. Ein Training von KI-Modellen mit „Spiegel“-Inhalten schließt der Verlag dabei ausdrücklich aus.
Die rote Linie ziehe man laut eigener Aussage so: „Sollten Anbieter von Sprachmodellen und Suchmaschinen Artikel ohne Vereinbarungen und Gegenleistung nutzen – sei es zu Trainingszwecken oder zur Beantwortung von Nutzeranfragen –, wäre dies inakzeptabel.“ Weil das „Internet Archive“ in der Vergangenheit auch für das Training von KI-Modellen eingesetzt worden sei, blockiert der Verlag dessen Crawler konsequent.
Kollateralschaden statt bewusstem Boykott
Es ist ein bemerkenswerter Ansatz: Das „Internet Archive“ muss draußen bleiben, OpenAI-Crawlern gewährt der „Spiegel“ dagegen testweise und selektiv Zugang.
Dahinter steckt ein Problem, das in der Branche bereits beim Umgang mit anderen Techkonzernen wie Google oder Meta zu Tage trat. Die Unternehmen besitzen im Netz das Monopol auf Reichweite und Sichtbarkeit, auf die Medien existenziell angewiesen sind. Gleichzeitig fühlen sich Verlage von denselben Konzernen systematisch ausgenutzt. Ihre Antwort darauf? Blockieren, wo es möglich scheint. Dealen, wo Reichweite winkt. Klagen, wenn beides nicht hilft.
In diesem Konkurrenzkampf scheint die Blockade des „Internet Archive“ eher ein tragischer Kollateralschaden als ein bewusster Boykott zu sein: Weil KI-Konzerne das Angebot der „Wayback Machine“ für ihre Zwecke missbrauchen, bestrafen die Verlage das Archiv gleich mit.
Das „Internet Archive“ dient demokratischen Werten
Dabei ist es offensichtlich, dass Internet-Archive und KI-Modelle nicht im selben Team spielen. Zwar funktionieren beide im Grunde ähnlich: Sie laden große Mengen an Webseiten herunter und machen sie auf unterschiedliche Weise zugänglich. Der eklatante Unterschied liegt aber in Ziel und Zweck. Das „Internet Archive“ arbeitet als Stiftung und archiviert, damit andere lesen können. Damit dient es auch demokratischen Werten wie gesellschaftlicher Transparenz. KI-Anbieter hingegen verfolgen primär kommerzielle Ziele: Sie wollen möglichst viel Geld verdienen.
Dazu kommt: Was die „Wayback Machine“ an globaler Dokumentations- und Archivierungsarbeit leistet, wäre deutschen Bibliotheken rechtlich kaum möglich, obwohl auch sie dem Prinzip des gemeinnützigen und offenen Wissenszugangs verpflichtet sind. Die Deutsche Nationalbibliothek archiviert Webseiten zwar bereits seit 2006, und auch andere Bibliotheken stellen Zugänge zu solchen Beständen bereit. In Deutschland dürfen Webarchive aber nur im Lesesaal genutzt werden, nicht von zu Hause, nicht per VPN, nicht per Account.
In einer Welt ohne „Wayback Machine“ hieße das: Wer als JournalistPerson, die Informationen recherchiert, prüft und anschließend der Öffentlichkeit zur Verfügung stellt,... eine archivierte Version einer deutschen Nachrichtenwebseite einsehen wollte, müsste dafür nach Frankfurt am Main oder Leipzig reisen. In Zeiten, in denen intensive Recherchen mit dem Smartphone möglich sind, klingt das schlicht absurd.
Was die „Zeit“ anders macht
Tatsächlich könnte die Entscheidung der Medienhäuser ausgerechnet jene am härtesten treffen, die von der „Wayback Machine“ profitieren: ihre Journalistinnen und Journalisten. Entsprechend haben rund 200 – vorwiegend US-amerikanische – Medienschaffende einen offenen Brief unterzeichnet, der die Bedeutung des Angebots für den Journalismus eindrücklich unterstreicht.
Laut einem Bericht der Katholischen Nachrichten-Agentur „KNA“ machen daher einige deutsche Verlage durchaus einen Unterschied zwischen KI-Konzern und „Internet Archive“. So untersage die „Zeit“ zwar „den Crawlern der führenden KI-Plattformen den Zugriff auf unsere Inhalte zu Trainingszwecken“. Zugriffe des „Internet Archive“ lasse man hingegen zu. Auch die FAZ versuche, „zwischen dem Schutz unserer Inhalte und dem öffentlichen Interesse an dokumentierter Zeitgeschichte“ abzuwägen. Man wolle primär reine KI-Crawler blocken, „die Inhalte systematisch für Trainingszwecke großer Sprachmodelle ohne vorherige Zustimmung erfassen“.
Die „Deutsche Welle“ gehört hingegen zu jenen Medien, die das „Internet Archive“ ausschließen. Pressesprecher Fabian Rösel rechtfertigt das auf Anfrage so: „Eine öffentliche Archivierung journalistischer Inhalte bedeutet nicht automatisch, dass diese dauerhaft automatisiert ausgelesen oder als Trainingsdaten für KI-Systeme verwendet werden dürfen.“
Kurioserweise hat die „Deutsche Welle“ jüngst ebenfalls einen Beitrag zur Recherche des „Nieman Lab“ veröffentlicht. Darin heißt es unter anderem, „ausgerechnet USA Today“ blockiere den Crawler des Archivs, obwohl das Unternehmen zuletzt einen aufsehenerregenden Bericht nur mithilfe der „Wayback Machine“ veröffentlichen konnte. Dass auch die „Deutsche Welle“ das Internet-Archiv ausschließt, wird in dem Beitrag elegant verschwiegen.
Auch die „Wayback Machine“ könnte zur Lösung beitragen
Dennoch hat Pressesprecher Rösel einen Punkt: Archivieren und Auswerten (lassen) sind zwei verschiedene Dinge. Und: Die Stiftung könnte selbst zur Lösung beitragen und die Crawler der KI-Anbieter blockieren. Offenbar setzt Mark Graham, Leiter der „Wayback Machine“, aber bereits auf ähnliche Maßnahmen: Man drossele übermäßige Zugriffe, filtere verdächtige Anfragen und beobachte neue Scraping-Muster. Denn: „Die Wayback Machine ist für menschliche Leser gemacht.“ Die Bedenken der Medienkonzerne seien laut Graham daher „verständlich, aber unbegründet“.
Wie wirksam das ist, wird sich zeigen. So bleibt bislang nur das bekannte Fazit: Solange es keine Gesetze gibt, die KI‑Firmen verpflichten, für das Training mit urheberrechtlich geschützten Inhalten zu zahlen, werden Medienhäuser wohl zunehmend die Crawler blockieren – und damit auch der „Wayback Machine“ weiter im Weg stehen.
Sie sehen gerade einen Platzhalterinhalt von Turnstile. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Sie sehen gerade einen Platzhalterinhalt von Facebook. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Sie sehen gerade einen Platzhalterinhalt von Instagram. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Sie sehen gerade einen Platzhalterinhalt von X. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
No comment?
Um kommentieren zu können, müssen Sie Übonnent sein.