Mangelnde Open-Data-Standards

RKI: „Wir haben nicht die Aufgabe, Datenjournalisten zu schulen“

Covid19-Landkarte der „Tagesschau“ Screenshot: tagesschau.de

Wie oft haben wir in den vergangenen anderthalb Jahren auf farbige Säulendiagramme und interaktive Landkarten gestarrt, um uns über das aktuelle Ausmaß der Pandemie zu informieren. Es ist gerade nicht nur die Zeit der Virolog:innen, sondern auch der Datenjournalist:innen, die all die Zahlen und Werte überhaupt erst anschaulich machen. Doch auch nach vielen Monaten Ausnahmezustand sind sie weiterhin mit Problemen konfrontiert.

„Deutschlandweit haben die meisten staatlichen Stellen immer noch keine Open-Data-Standards“, sagt etwa Björn Schwentker, Datenjournalist beim NDR. Soll heißen: Viele Daten werden nicht umfassend zur freien Verfügung gestellt. Und immer noch müssen Datenjournalist:innen teilweise viel Zeit in die Aufarbeitung von Daten stecken. Speziell am Berliner Robert-Koch-Institut (RKI) gibt es seit Beginn der Pandemie immer wieder Kritik, die das RKI aber auf Anfrage von Übermedien vehement von sich weist.

Bereinigung und Analyse

Wie Datenjournalist:innen vorgehen, lässt sich am Beispiel von Corona knapp zusammengefasst so erklären: Jede Covid-19-Erkrankung, die von einem Labor bestätigt wurde, muss an das jeweilige Gesundheitsamt gemeldet werden. Das übermittelt dann die Daten an das RKI, das die Zahlen täglich auf seiner Website veröffentlicht. Datenjournalist:innen laden sich die Daten dort herunter, entfernen Zahlen, die sie nicht brauchen, beheben Fehler und bringen die einzelnen Zeilen und Spalten in eine richtige Reihenfolge. Diesen Prozess nennt man Bereinigung.

Erst dann beginnt die eigentliche Analyse. Datenjournalist:innen schreiben kleine Programme mit Informationen, wie die Daten weiterverwendet werden sollen. Die dadurch neu entstandenen Datensätze werden anschließend in Anwendungen wie Datawrapper geladen, die die Grafiken erstellen, die wir in den vergangenen Monaten so häufig aufrufen.

Seit Beginn der Pandemie stoßen Datenjournalist:innen dabei immer wieder auf Probleme: So werden Daten, wie die Anzahl der Neuinfizierten, häufig erst Tage später veröffentlicht, nach Feiertagen oder Wochenenden zum Beispiel. Oder Zahlen werden im falschen Format bereitgestellt. Wenn das RKI etwa Daten zu Impfstofflieferungen als PDF oder als Bild herausgibt, müssen Datenjournalist:innen diese erst in eine maschinenlesbare Form bringen oder notfalls sogar abtippen, bevor sie mit der eigentlichen Arbeit beginnen können. Das kostet Zeit und ist fehleranfällig.

Ähnlich ist es mit der Datenstruktur: Die Impffortschritte werden zum Beispiel als Excel-Tabelle veröffentlicht. Eigentlich gut. Aber es kommt vor, dass Spalten getauscht oder Namen verändert werden. Datenjournalist:innen müssen ihre automatisierten Programme dann wieder anpassen.

Ein anderes grundsätzliches Problem: Es werden teilweise zu wenige Daten erhoben. Als sich zum Beispiel die Deltavariante begann auszubreiten, wäre es wichtig gewesen zu wissen, wo und wie weit diese Mutante im Umlauf ist. Weil das aber zu wenig untersucht wurde, war es schwer, verlässliche Aussagen zu treffen. Das könnte bei künftigen Mutationen wieder der Fall sein.

„Große Überforderung“

Doch warum sind mangelnde oder schlecht aufbereitete Daten im Jahr 2021 immer noch so alltäglich? „Da steckt vor allem eine große Überforderung dahinter“, sagt Elena Erdmann, Datenjournalistin bei der „Zeit“. Wie man mit Daten umgeht, sie bereitstellt, gehöre immer noch nicht zum Handwerkszeug vieler Beamt:innen. „Deshalb können die auch nicht einschätzen, was Datenjournalist:innen brauchen, um ihre Arbeit effizient zu erledigen.“

Das betrifft nicht nur das RKI, sondern viele Behörden – auch schon vor der Pandemie. Aber nie seien sie so sehr auf eine bestimmte Behörde angewiesen gewesen, sagt Erdmann. War früher an Daten zu bestimmten Themen nicht heranzukommen, hätten sie sich geärgert und die Idee im Zweifelsfall nicht umgesetzt. Bei Corona sei das nicht möglich: „Hier sind die Zahlen essentiell.“ Sie sind die Grundlage für politische Entscheidungen.

Das Robert-Koch-Institut in Berlin Foto: Imago / Schöning

Auf Anfrage von Übermedien widerspricht das RKI deutlich und dreht den Spieß um: Primärer Adressat des RKI sei die Fachöffentlichkeit. „Um die Datenbestände, die das RKI zur Verfügung stellt, nutzen und einordnen zu können, ist ein gewisses Maß an Fachexpertise notwendig; das RKI hat nicht die Aufgabe und Kapazitäten, Datenjournalist:innen entsprechend zu schulen.“ Gleich zu Beginn der Pandemie habe man Daten „schnell und umfassend in maschinenlesbarer Form zur Verfügung gestellt“. Auch pdf-Dokumente ließen sich „in der Regel mit entsprechend programmierten Scripten auslesen“.

Wieler: „So schnell und detailliert wie nie zuvor“

Bereits im Mai vorigen Jahres hatten sich 45 Datenjournalist:innen in einem Brief an Lothar Wieler gewandt, den Präsidenten des RKI. Sie wünschten damals, dass die Behörde „personell, technisch und inhaltlich“ in die Lage versetzt werde, dem „datenbezogenen Informationsinteresse der Medien Rechnung tragen zu können“, und forderten, „offene Corona-Daten schnellstmöglich bereitzustellen“. Durch einen engen Austausch solle eine faktenbasierte Berichterstattung ermöglicht werden.

RKI-Präsident Wieler hatte in seiner Antwort betont, das RKI gehe „weit über seinen gesetzlichen Auftrag“ hinaus und stelle in der Corona-Krise seine Meldedaten „so schnell und detailliert der Öffentlichkeit zur Verfügung wie nie zuvor“ – wobei es natürlich nie zuvor so eine Situation gab. Das RKI ergänzt auf Anfrage, Datenumfang und -tiefe seien „kontinuierlich erweitert und an die Bedarfe der Lage angepasst“ worden.

„Pandemiebedingt ist das Interesse an der Erhebung, Bereitstellung Aufbereitung, Analyse und Interpretation von Daten exponentiell gewachsen“, schreibt das RKI weiter. Nicht nur Medienvertreter würden sich „mit einzelnen, teils individuellen Anliegen an das RKI“ wenden. Die Kapazitäten, all diese Anfragen zu beantworten, seien „aber limitiert“.

Nach dem Briefwechsel hat es laut RKI „mehrere virtuelle Treffen zwischen dem RKI und Datenjournalist*innen“ gegeben. Seither hat sich auch etwas verbessert: Die Behörde stellt die meisten Daten nun in geeigneten Formaten bereit und kündigt Änderungen in der Struktur an. Inzwischen werden aktuelle Corona-Daten sogar auf GitHub hochgeladen, einer Website, auf der man seinen Code speichern, in Versionen verwalten und mit anderen teilen kann. So können sich Datenjournalist:innen schneller einen Überblick verschaffen und die benötigten Daten einfacher herunterladen. Außerdem kündigt das RKI auf unsere Anfrage an, ab Oktober eine „durchsuchbare Daten-Transparenzplattform“ zu entwickeln, über die künftig „sämtliche Datenprozesse innerhalb der RKI strukturell nachvollziehbar gemacht werden“.

„Trotzdem ist die Entwicklung sehr langsam und wir haben immer wieder Schwierigkeiten“, sagt Datenjournalistin Erdmann. Etwa mit den Zahlen zur Hospitalisierung: Zusammen mit ihrem Kollegen Christian Endt kritisierte sie Ende Juli in der „Zeit“ den Umgang mit dem neuen „Leitindikator“, wie das RKI die Covid-Krankenhauseinweisungen damals nannte. Eine wesentliche Dimension der Daten fehle: Zu veröffentlichen, wie sich die Patient:innen regional verteilen, sei nämlich laut RKI „bislang nicht geplant“.

Ironischerweise verwendet die Behörde diese Daten inzwischen selbst auf dem eigenen, neu angelegten Corona-Dashboard. Was Datenjournalist:innen aber nichts bringt. Die Daten dort auszulesen, um sie selbst zu verwenden, wäre aufwändig. Problematisch ist auch, dass sich die Zahlen zur Hospitalisierung am Meldedatum orientieren. Es wird also erfasst, an welchem Tag eine Person positiv auf Covid-19 getestet wurde und nicht, wann er oder sie im Krankenhaus eingeliefert worden ist.

Das RKI schreibt dazu auf Anfrage, es sei „primär für die Berichterstattung auf Bundesebene zuständig“, stelle die regionalisierte Aufschlüsselung aber ja auf seinem Dashboard zur Verfügung. Die Meldedaten würden, wie alle anderen Meldedaten, auch in den Kreisen selbst vorliegen, „entsprechende Angaben können dort zeitnah und umfassend erstellt werden“.

Das RKI prüfe derzeit, „in welcher Form die Hospitalisierungsdaten darüber hinaus am sinnvollsten verfügbar gemacht werden können“, das habe man auch bereits mitgeteilt. „Unabhängig davon ist die Aussagekraft von Hospitalisierungsdaten auf Landkreisebene mit Zurückhaltung zu interpretieren.“

„Der Datenjournalismus könnte viel mehr leisten“

Im Herbst vergangenen Jahres haben sich Datenjournalist:innen in einer Fachgruppe unter dem Dach des Vereins Netzwerk Recherche organisiert. Dieser vertritt ihre Interessen, zum Beispiel gegenüber Behörden, die sich dafür interessieren, was Datenjournalist:innen benötigen. Ein kleiner Schritt in Richtung einer besseren Zusammenarbeit, aber noch nicht ausreichend. „Der aktuelle Zustand ist sehr bitter, weil der Datenjournalismus viel mehr leisten könnte, wenn die Daten und Zugänge besser wären“, sagte die „Spiegel“-Datenjournalistin Christina Elmer im Frühjahr 2021. Elmer ist eine der Sprecherinnen der Fachgruppe, im Winter tritt sie an der TU Dortmund die deutschlandweit erste Professur für Datenjournalismus an.

Damit sich etwas verbessert, wäre auch die Politik gefragt. Doch das Thema Open Data steht hier bei weitem nicht oben auf der Liste. Das RKI beantragte voriges Jahr beispielsweise 68 IT-Stellen. Genehmigt wurden vom Haushaltsausschuss des Bundestages gerade mal: vier. Das sei „wirklich ein Skandal“, schrieb damals der „Tagesspiegel“. Das RKI sei immerhin auch schon vor Corona im Digitalen unterbesetzt gewesen.

Wie unterbesetzt das RKI ist und wie viel Arbeit es zugleich in der Pandemie zu erledigen hat, geht auch aus der Antwort auf unsere Anfrage immer wieder hervor. Konkret schreibt das RKI etwa, es seien hausintern frei werdende Stellen aus anderen Bereichen in der IT nachbesetzt worden, „um den Mangel zu mildern“. Ebenso habe das RKI befristet Arbeitsverhältnisse geschlossen, „etwa aus Drittmittelfinanzierungen für den Bereich der Fach-IT“.

Aber wieso sorgt die Politik hier nicht dafür, dass es besser läuft? Und wieso wurden nicht gleich mehr Stellen bewilligt?

„Wahrscheinlich hat die Politik nicht langfristig, sondern nur bis zum Ende der Legislaturperiode gedacht“, sagt Arne Semsrott, der die Plattform FragDenStaat leitet, über die Anfragen an Behörden gestellt werden können. Hätte der Bundestag alle Stellen bewilligt, wären Kosten über mehrere Jahrzehnte angefallen. „Um das zu umgehen, beauftragt der Staat bevorzugt externe Spezialist:innen“, sagt Semsrott, „auch wenn das kurzfristig teurer ist.“

Informationsasymmetrie: Staat und Öffentlichkeit

Der Staat hat anscheinend nicht wirklich Interesse, offener und besser mit Daten umzugehen. Das findet nicht nur Semsrott, sondern auch Schwentker vom NDR: „Was nur wenig Bürger:innen wissen: Es gibt eine große Informationsasymmetrie zwischen Staat und Öffentlichkeit.“ Der Staat habe das Monopol, Daten zu erheben. Die Politik kann darauf zugreifen, Forscher manchmal ebenfalls – die Öffentlichkeit jedoch nicht so einfach, auch Journalist:innen nicht. Sie können sich zwar auf Landespressegesetzte und das Informationsfreiheitsgesetz (IFG) berufen, aber das ist oft mühsam und landet unter Umständen vor Gericht, wo der Anspruch erst geprüft wird.

Datenjournalist:innen sind also davon abhängig, was der Staat ihnen zur Verfügung stellt: „Es ist Aufgabe von uns Journalist:innen, Themen auszuwählen, die wir für relevant halten. Aber in der Praxis tut das oft der Staat. Denn wir können nur datenbasiert berichten, wo er entscheidet, Daten herauszugeben – alle anderen Themen sind tot. Der Staat übernimmt mit dieser Themenselektion faktisch die Aufgabe derer, die ihn eigentlich kontrollieren sollten“, sagt Schwentker.

Neue Gesetzesgrundlagen, die die Ämter dazu zwingen, Daten umfassend herauszugeben, seien eher nicht zu erwarten, glaubt Semsrott. Jedenfalls nicht in naher Zukunft. „Am Ende ist das auch eine Machtfrage: Wer Daten aus der Hand gibt, gibt Macht aus der Hand. Und das möchte die Politik um jeden Preis verhindern.“ Würden beispielsweise Datensätze veröffentlicht, durch die politische Versäumnisse ans Licht kämen, sagt Semsrott, würden sich die verantwortlichen Politiker:innen angreifbar machen.

Abgeordnete verteidigen die mangelnde Auskunftsfreude häufig mit Datenschutz. Auch das RKI schreibt auf unsere Anfrage: „Der Transparenz sind allerdings auch Grenzen gesetzt.“ Einerseits müsse der Datenschutz berücksichtig werden, andererseits sei die Bereitstellung aller Rohdaten auch nicht immer sinnvoll. „Es ist Aufgabe des RKI, hier die Balance zu finden.“

Dabei sei die Angst vor einem Datenschutzskandal in den meisten Fällen unbegründet, sagt Semsrott. Um Datenschutz gehe es erst, wenn auf Einzelpersonen geschlossen werden könnte, was aber eher die Ausnahme ist. Die meisten Daten werden ohnehin anonymisiert erhoben.

Politischer Wille

„Ämter wie das RKI werden von der Pandemie dauerhaft profitieren“, sagt Datenjournalistin Erdmann. „Aber bis sich in der öffentlichen Verwaltung eine Open-Data-Kultur etabliert hat, wird noch viel Zeit vergehen.“ Das insgesamt zu wenig passiert, sieht auch Schwentker so: „Die Maßnahmen der Politik sind alle halbgar. Dadurch wird nicht der strukturelle Wandel angestoßen, den wir so dringend benötigen.“

Was für diesen Wandel auch notwendig wäre: Geld. Wie so oft. Um mehr Menschen einzustellen und Beamt:innen für die Thematik zu sensibilisieren, auch für die Bedürfnisse von Journalist:innen. Die wenigsten Menschen gehen ja auf die Seite des RKI oder des Gesundheitsministeriums und klicken sich durch Tabellen, sondern rufen eines der Corona-Dashboards auf, das Datenjournalist:innen gebaut haben. Doch der politische Wille fehle bisher, sagt Semsrott: „Wir brauchen eine Behördenleitung, die öffentlich anerkennt, dass Open Data sinnvoll für eine demokratische Gesellschaft ist.“

Und nicht nur in Deutschland ist beim Umgang mit Daten noch Luft nach oben. John Burn-Murdoch von der „Financial Times“ verlieh neulich ironisch einen Preis für den „am wenigstens zugänglichen Covid-Datensatz“, veröffentlicht via Telegram, mit Diagrammen im Bild-Format. Der Journalist nimmt’s mit Humor: Immerhin habe er so wieder Kontakt zu einem alten Freund auf Telegram aufgenommen.

6 Kommentare

  1. Diese Problematik kommt mir aus dem früheren Berufsalltag als Datenanalyst durchaus bekannt vor. Und es überrascht mich gar nicht, dass die beiden Seiten das sehr anders sehen^^ Aber es kommt ja im Text durchaus heraus, dass es mittlerweile Annäherungen gibt.

  2. Interessante Einblicke. Die Überschrift ist für Übermedienverhältnisse ein bisschen clickbaity, oder? Der Schulungshinweis geht an den geäußerten Vorwürfen bzw. Anforderungen der Journalist*innen ein vorbei und geht dann in der differenzierten Problembetrachtung und Annäherung (zum Glück) unter.

    Den zitierten Satz, dass externe Expertise kurzfristig teurer sei finde ich interessant. Ist sie das nicht langfristig auch? Das Ziel sollte doch sein diese Expertise behörden- (analog ministerien-)intern aufzubauen und dann halt zu haben. Ich halte es für sehr unwahrscheinlich, dass Open Data oder das RKI in der näheren Zukunft an Relevanz verlieren werden.

  3. Wieder ein neues Wort gelernt: Datenjournalist. Haben große Tageszeitungen wirklich Leute, die jeden Tag den ganzen Tag Datensätze in ihre Programme einpflegen? Während Corona vielleicht. Aber sonst? Ich bezweifle das stark.

    Außerdem muss ich eine Lanze für das RKI brechen: Im Vergleich zur stark schwankenden Qualität der Cororonaberichterstattung auch in sog. Qualitätsmedien liefert das RKI auf seiner Seite stets aktuelle, gut aufbereitete und für Laien verständliche Informationen. Und dazu gibt es einen Haufen hervorragender Weiterleitungen zu tiefergehenden Informationen bis hin zu den relevanten Studien.
    Ich kenne keine Zeitung, die an diese Qualität und Quantität auch nur ansatzweise herankommt.

    Jetzt aber zum Artikel: Ich kenne die Problematik der verschiedenen Formen der Datenweitergabe leider ebenfalls sehr gut. Da ließe sich sicher einiges verbessern. Dennoch halte ich die Vorwürfe gegenüber dem RKI für überzogen und auch verfehlt. Es ist nicht die einzige und ganz sicher auch nicht die Hauptaufgabe des RKI, Journalisten möglichst angenehm weiterzuverarbeitende Datensätze zu übersenden.
    Das – und das kommt im Artikel hier viel zu kurz – ist eben die Aufgabe der Regierung. Und die tut es aus den genannten Gründen und aus Trägheit sowie Unwillen einfach nicht.

  4. @Sid: Doch, Datenjournalismus is a thing, auch jenseits von Corona, aber natürlich gerade besonders viel mit und wegen Corona.

    Und wenn Sie sagen, das mit den Datensätzen sei Aufgabe der Regierung: Das RKI ist eine Regierungsbehörde.

  5. @Jan: Es gibt noch einen anderen Grund, wieso Behörden und andere staatliche Stellen so „gerne“ auf externe Dienstleister zurückgreifen: Sie sind dann nicht an festgelegte Tarifverträge etc. gebunden, die finanziell für stark gesuchte IT-Fachkräfte eben nicht gerade reizvoll sind. (Was wiederum auch bedeutet, dass das RKI, hätte es die 68 Stellen bewilligt bekommen, die auch erst einmal hätte besetzen müssen.)

    @Sid: Doch, doch, Datenjournalist:innen gibt es zumindest in manchen größeren Redaktionen schon seit Jahren, etwa bei Spiegel, SZ, NZZ und vielen anderen. Sie standen – wie ja auch im Artikel oben steht – bislang halt nicht so sehr im Mittelpunkt, waren aber an zahlreichen großen Enthüllungen in den vergangenen Jahren beteiligt. In den kleineren Redaktionen, die ich kenne, ist es hingegen so, dass sich meist ein oder zwei Onlineredakteur:innen „nebenbei“ mit dem Thema beschäftigen, und da beschränkt sich das Ganze dann halt auf die „schöne“ Darstellung von Wahlergebnissen oder momentan halt Corona-Infektionszahlen.

    Und zum Einwand RKI/Regierung: Wäre es nicht die Aufgabe von Politik/Regierung UND Forschungsinstitut? Sprich: Das RKI müsste (auch aus eigenem Interesse) sein Bestes tun, auch die Medien zu informieren (insbesondere da, wo die Daten ja existieren, und halt nur und vor allem anders veröffentlicht werden müssten), und die Politik müsste die entsprechenden Vorgaben machen und deren Umsetzung natürlich auch ermöglichen.

  6. @Stefan Niggemeier und Matthias: Ok, gut. Da – das gebe ich zu – fehlt mir tatsächlich der Einblick. Bei uns läuft es nämlich eher so, wie Sie, Matthias, das beschreiben: Ein bestimmter Kollege macht das, wenn es komplizierter wird. Mea culpa.

    Und zu meinem Einwand bzgl. RKI: Klar ist es eine Regierungsbehörde. Ich meine nur, für diese ausladende Kritik ist das RKI der falsche Adressat, weil die Regierung die Voraussetzungen nicht schafft. Das erläutert ja auch der Artikel. Mich stört hier zudem das Ungleichgewicht: Das eigentliche Problem (mangelnde Unterstützung der Regierung) wird erst am Ende relativ kurz beleuchtet, und stattdessen bekommt das RKI seitenweise sein Fett weg.

Einen Kommentar schreiben

Mit dem Absenden stimmen Sie zu, dass Ihre Angaben gemäß unseren Datenschutzhinweisen gespeichert werden. Ihre E-Mail-Adresse wird nicht veröffentlicht.