Die Schreib-Maschine, die aus Daten Fußballberichte macht

Die Geschichte selbst ist im Bruchteil einer Sekunde erzählt. Ein Augenaufschlag, paff, und die Story ist da! Und nicht nur eine. Tausende. Dann steht da: „Mit insgesamt 50 Zählern befindet sich der TuS Erndtebrück voll im Fahrwasser. Die Formkurve des 1. FC Kaan-Marienborn dagegen zeigt nach unten.“ Oder: „Union Tornesch ging diese Partie mit drei Veränderungen in der Startelf an. So standen heute Pohlmann, Gomes und Dohrn für Pott, Badermann und Stahnke auf dem Feld.“

Ausrisse: reviersport.de

Die Geschichte hinter der Geschichte ist ein bisschen komplexer. Denn was sich liest, als habe ein Sportreporter Tabellen studiert, Formkurven verglichen oder Aufstellungen notiert, ist tatsächlich das Rechenergebnis eines Computerprogramms. Spiel abgepfiffen, Endstand da, Text fertig – in null Komma nix. Kein echter Journalist muss für Spielberichte wie diese mehr einen Notizblock zücken oder gar selbst zum Sportplatz fahren. Diese Maschine namens „textengine“ wird in der Fußballsaison, die in diesen Tagen beginnt, rund zweieinhalb Millionen Texte schreiben. Für nahezu jede Liga Deutschlands, von der Bundesliga bis zur Kreisklasse C. Das sind bei rund 34 Spieltagen gut 73.000 Berichte pro Wochenende.

Ein ziemlich fleißiger Reporter. Einer, der echte Reporter arbeitslos macht?

Kein riesiger Super-Computer

Marcel Hager ist einer der Schöpfer dieser Mensch-Maschine. „Es ist eine Software, in die Daten einlaufen und aus der Texte rauskommen. Das ist nicht spektakulär, da steht jetzt kein fünf mal acht Meter großer Supercomputer.“ Tatsächlich steht da nur ein Laptop in einem Konferenzraum, an den Wänden großformatige Fotos der vier finalen deutschen WM-Tore, eine Sitzgruppe, ein Tisch und ein Paar Fußballschuhe, die über der Türklinke baumeln. Wer Marcel Hager im Industriegebiet in Hamburg Hammerbrook besucht, bekommt nicht viel mit von seiner Sportplatz Media GmbH, die hier ihre Büroräume hat. Auch die mehreren Server, die die „textengine“ am Laufen halten, bleiben im Verborgenen.

Und es bleibt natürlich ein Betriebsgeheimnis, wie das Ding im Detail funktioniert. Klar ist: Vorab haben Linguisten, Germanisten und Sportreporter sehr viele Satzbausteine gesammelt und der Software beigebracht, sie sinnvoll und selbständig zusammen zu puzzeln. Das wichtigste, was die „textengine“ dann braucht, sind: Daten, idealerweise viele Daten. Mindestens Ergebnisse, Spielpläne und Tabellen. Bestenfalls wird sie auch noch mit Torschützen, Vorlagengebern, gelben und roten Karten, Kaderlisten und Spielerwechseln gefüttert. Je mehr Daten, desto detailliertere Berichte kann sie ausspucken.

Diese harten Fakten kann der Kunde entweder selbst liefern, dafür wird dann eine Datenbankanbindung etwa der Redaktion an die „textengine“ geschaffen; es ist sogar möglich, das Tool direkt ins Redaktionssystem zu integrieren. Oder aber der Kunde hat keine eigenen Daten, dann kann er sie über Sportplatz Media einkaufen. Dafür ist das System an Sport-Datendienste wie Opta, Deltatre oder Sportradar angebunden.

Danach entscheidet der Kunde, wann er welche Texte in welcher Länge geliefert bekommen will, ob er vor Veröffentlichung gegenlesen will oder ob die Berichte direkt online gehen. An manchen Stellen sind die Texte ein bisschen ungelenk und holzschnittartig formuliert, aber sie sind reich an Fakten und fehlerfrei. Man könnte also unken: genau umgekehrt wie die Artikel vieler echter Reporter. Leser-Befragungen sollen bestätigen, dass die „textengine“-Artikel ankommen. Die hohe Informationsdichte, sagt Marcel Hager, „suggeriert dem Leser offenbar, dass da sehr viel Arbeit drinsteckt“. Viele User hielten die Texte deshalb für handgeschrieben.

Und dann steht da etwa:

Die Zuschauer dürfen auf viele Tore hoffen. Beide Mannschaften gehören, mit einem Schnitt von über zwei Toren pro Spiel, zu den offensivstärksten der Liga. Die Angriffsreihe von Sperber lehrt ihre Gegner in aller Regelmäßigkeit das Fürchten, was die 62 geschossenen Tore eindrucksvoll unter Beweis stellen. Die Vorzeichen sprechen für ein ausgeglichenes Spiel zweier gleichwertiger Mannschaften.“

Stangerl für die Österreicher

Marcel Hager sagt, dass seine Textmaschine nie doppelte Inhalte produziere: „Ein ‚uniqueness score‘ sorgt dafür, dass Kunden keine identischen Texte bekommen. Neu generierte Texte werden vor der Auslieferung mit bereits bestehenden verglichen. Das macht die Maschine automatisch.“

Das Ding ist also variabel, schnell, effizient – und sogar lernfähig: Man kann ihm regionale Spezifika beibringen, etwa ob es der TuS Berne oder die TuS Berne heißt – und was das, je nach dem, für die Grammatik der folgenden Sätze bedeutet. Die „textengine“ schafft es auch, eigene Tonlagen oder Dialekte zu berücksichtigen. Für österreichische Kunden heißt es etwa „Stangerl“ statt „Pfosten“.

Ist das nur bemerkenswert oder auch beunruhigend?

Die „textengine“ ist ein Gemeinschaftsprojekt mit der Retresco GmbH in Berlin. Von dort kommt die Kerntechnologie, die aus Daten Text generiert. Das Sportplatz-Media-Team um Hager und seinen Kompagnon Torsten Lührs hat der Software dann sozusagen den Fußballsachverstand beigebracht. Beide sind Anfang 40 und erfahrene Medienmanager. Ihre Sportplatz Media hat von Anfang an verschiedene datenbasierte Tools angeboten. „Da empfanden wir es als sehr schade, diese Daten lediglich als bloße Zahlen dem User darzubieten.“ Also haben sie angefangen, die „textengine“ zu entwickeln. Vor drei Jahren war das, im vergangenen Jahr war die Software dann marktreif.

Bereits mehr als 20 Kunden nutzten bereits die „textengine“, darunter große Namen wie fussball.de, das Portal des DFB zu allen deutschen Fußballligen, oder Reviersport, das größte regionale Fußballportal in Deutschland, das zur WAZ-Gruppe gehört. Für transfermarkt.de ist die „textengine“ gerade dabei, 400.000 historische Spielberichte zu erstellen, etwa für das 7:1 von Borussia Mönchengladbach gegen Bayer Uerdingen vom 12. Mai 1984. Daten liegen ja reichlich vor für alle möglichen alten Spiele – nur Texte gibt es bislang selten.

Mehr Content, mehr Klicks

Marcel Hager ist kein Typ Journalist, er ist der Typ Betriebswirt. Aber macht ihn das zu einem, der es schlecht meint mit dem Journalismus?

Die „textengine“-Leute verweisen darauf, dass sie keinen Ersatz, sondern ein zusätzliches Angebot liefern, insbesondere mit Blick auf die tieferen Amateurligen. „Die Zeitungen schicken ja nicht 500 freie Mitarbeiter auf die Plätze, sondern sie haben lediglich drei Redakteure zur Verfügung, um 60 regionale Ligen abzubilden“, sagt Hager. „Und diese drei Mitarbeiter decken am Wochenende eine Mindestanzahl von Spielen ab. Diese Arbeit werden sie auch zukünftig machen. Nur mit dem positiven Effekt, dass plötzlich hunderte oder sogar tausende Spiele einen Spielbericht bekommen.“ Für diese Ligen, über deren Spiele es vorher überhaupt keine Artikel gab, werde die „textengine“ deshalb besonders nachgefragt. Die neue Masse an Content soll den Verlagen und Portalen ein höheres Ranking in den Suchmaschinen bringen und zu mehr Klicks führen – und dadurch mehr Einnahmen.

Die „textengine“ lässt sich auch als Werkzeug von Journalisten nutzen. Der Reporter nutzt den automatisch erstellten Text dann als Grundgerüst, das die faktischen Fragen beantwortet: Wie ist das Ergebnis einzuordnen? Wie war die Aufstellung und wie wurde gewechselt? Wer war Favorit? Warum war er Favorit? Solche Analysen könne die „textengine“ genauso gut wie ein Mensch, sagt Hager. „Und die Redakteure haben wieder mehr Zeit, den Telefonhörer in die Hand zu nehmen und ein Trainerinterview zu führen oder auf den Sportplatz zu fahren.“ So kann man die „textengine“ auch als Investition in Sportjournalismus darstellen als seinen Totengräber.

Was der Spaß kostet, mag Marcel Hager nun wieder nicht so genau sagen. Das hänge vom Umfang des Pakets ab. „Kaufe ich eine Liga ein? Kaufe ich 60 Ligen ein? Oder kaufe ich alle Ligen Deutschlands ein? Kaufe ich nur Vorberichte ein? Kaufe ich auch Nachberichte ein? Preispakete sind entsprechend individuell.“ Nur die Kosten für die simpelste Lösung sind transparent: Wer ohne monatliche Verpflichtung einzelne Texte on-demand bestellt, zahlt einen Euro je Text. So weit, so uninteressant, denn tatsächlich spannend wäre ja der Preis für, sagen wir mal, Vor- und Nachberichte, eine Saison lang, sechs Kreisligen, zwei Bezirksligen, eine Landesliga.

Grenzen der Datenanalyse

Neuerdings können sie bei „Sportplatz Media“ auch englischsprachige Spielberichte liefern, aktuell arbeiten sie an einer spanischen Version. Auch die Textqualität werde permanent optimiert. Wenn bald Datenlieferanten auch für tiefere Ligen Ballbesitzquoten übermitteln oder jede Torchance einen speziellen Wert zugewiesen bekommt, der aussagt: War das eine gute oder eine schlechte Torchance? Dann werden sie ihre „textengine“ auch auf diese Daten trainieren und ihr beibringen, eine Aussage daraus zu machen.

Mindestens einen Vorteil aber hat der echte Reporter – und er wird ihn auch behalten: „Er kann Informationen einfließen lassen, die eine ‚engine‘ nicht einbetten kann“, sagt Marcel Hager. Eine Verletzung in der 89. Minute etwa, wegen er das Spiel für zehn Minuten unterbrochen wird, weil der Notarzt kommen muss. „Oder der Trainer, der an der Seitenlinie ausrastet und die Werbebande zertritt. Oder dass es einfach ein ungerechtes Spiel war: eine Mannschaft hat völlig unverdient gewonnen. Oder es war ein hartes Spiel. Selbst wenn der ‚textengine‘ die Information vorliegt, dass es fünf rote Karten gab, muss es noch kein hartes Spiel gewesen sein. Daraus können wir nicht schließen, dass es körperbetont war, es können auch fünf Leute den Schiedsrichter beschimpft haben.“

Eigentlich dürfte die „textengine“ echte Redakteure und Reporter nicht beunruhigen. Denn alles, was nicht in Form von strukturierten, standardisierten Daten vorliegt, kann sie nicht zu Aussagen verarbeiten. Man könnte auch sagen: Alles, was Journalismus von einer bloßen Statistik unterscheidet.

5 Kommentare

  1. „…der vier finalen deutschen WM-Tore…“
    Aus dem Satzfragment werde ich nicht so recht schlau. Was ist damit gemeint? Die in WM-Endspielen erzielten Tore? Das sind jedenfalls ein paar mehr.

  2. Wahlkampfberichte lassen sich bestimmt auch von Bots schreiben.

    SPD wechselt Schulz ein, CDU gilt als Favorit dank der defensivstarken Merkel, SPD hat Stimmungshoch, SPD hat Stimungstief, Merkel bleibt konstant hinter Nutella, welche/r/s aber nicht zu Wahl steht.

    Die Wähler können sich auf einen spannenden Wahlabend freuen.

  3. @ 1: Vermutlich hat das System einen Mittelwert aus den 11 Toren gebildet und nun eines gegen Algerien und drei gegen Brasilien ausgedruckt.

    @ 2: Ich sehe keine Verschlechterung.

    @ Topic: Je nachdem wie man das System nutzt, kann das durchaus sehr sinnvoll und gut sein: „Und die Redakteure haben wieder mehr Zeit, den Telefonhörer in die Hand zu nehmen und ein Trainerinterview zu führen oder auf den Sportplatz zu fahren.“ Ja – je nachdem, ob man das dann auch macht oder statdessen lieber einen Journalisten wegkürzt und dafür einen BWLer einstellt. Aber das ist einfach das Gleiche wie bei einem Messer, mit dem man für Menschen kochen kann oder Menschen kochen kann.

    Marcel Hager sagt, dass seine Textmaschine nie doppelte Inhalte produziere: „Ein ‚uniqueness score‘ sorgt dafür, dass Kunden keine identischen Texte bekommen. Neu generierte Texte werden vor der Auslieferung mit bereits bestehenden verglichen.

    Clever. Insgenamt gesehen hat man mit dieser Textmaschine anscheinend ein deutlich besseres und ausgereifteres System geschaffen als dies Focus Online Local tat.

  4. Den „Vorteil“ des echten Reporters sehe ich eigentlich eher als Nachteil – Er kann einen Artikel subjektiv einfärben und Wertungen, die über die reinen Zahlen hinausgehen, ergänzen.
    Ein Programm wie „textengine“ kann keine eigene Meinung oder einen Spin in eine Geschichte bringen (außer, dies ist in den „input“ Daten bereits vorhanden).
    Das könnte uns vom „Postfaktischen“ wieder etwas loslösen.
    „ungerecht“, „unverdient“ und „hartes Spiel“ sind letztendlich auch nur subjektive Eindrücke.

    Zugegeben, bei Fußball-Spielberichten ist die Chance auf Manipulation jetzt nicht so groß, wie in anderen Bereichen.

  5. Im Grunde das gleiche System gibt es bei Bloomberg für Wirtschaftsnachrichten/Unternehmensmeldungen schon eine ganze Weile.

    „Unternehmen xy meldete heute einen Anstieg des Ergebnisses um X% auf y Mrd. Der Aktienkurs reagierte mit ….“

    Liest sich alles ganz flüssig und wenn es nicht unter dem Text stünde, würde kaum einer merken, dass das automatisch verfasst wurde.

Einen Kommentar schreiben

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.