Deutsche Jury ist Europameister im Synchronabstimmen
Hilda Heick ist in der vergangenen Woche etwas Blödes passiert. Sie sollte die Songs beim Eurovision Song Contest nach ihrer Qualität bewerten und von Platz 1 bis Platz 26 sortieren. Versehentlich hat sie es genau umgekehrt gemacht: Sie setzte ihren Favoriten, Australien, an die letzte Stelle, und das georgische Lied, das ihr am wenigsten gefiel, an die erste. Als der Fehler auffiel, war es zu spät.
Hilda Heick ist Sängerin, mit ihrem Ehemann als das Duo Keld & Hilda bekannt und in diesem Jahr Mitglied der dänischen Jury beim Eurovision Song Contest.
An ihrem Fehler kann man schön demonstrieren, wie groß der Einfluss eines einzelnen Fachjurors ist. Hätte Hilda so abgestimmt, wie sie wollte, hätte Australien von der dänischen Jury nicht 10, sondern 12 Punkte bekommen. Die Ukraine hätte nicht 12, sondern 0 Punkte bekommen.
Immerhin: Es hätte nicht zu einem anderen Gesamtsieger geführt. Aber der Vorsprung der Ukraine vor Australien wäre von 23 auf 9 Punke geschmolzen. So einen Unterschied macht es, wenn ein einzelner vermeintlicher Fachjuror in einem Land sich verwählt.
Die Stimme eines Jurors ist zigtausend Mal so viel wert wie die eines Anrufers. Umso wichtiger wäre es, die Jurys sorgfältig zusammenzusetzen (und sicherzustellen, dass jedes Mitglied auch wirklich die Spielregeln verstanden hat).
Im öffentlichen Teil des Regelwerks für den Eurovision Song Contest heißt es, dass die Juroren in der Musikindustrie arbeiten müssen: als Radio-DJ, Künstler, Komponist, Textdichter oder Produzent. „Es soll eine Balance unter den Mitgliedern jeder einzelnen nationalen Jury geben, die sicherstellt, dass sie im Hinblick auf Geschlecht, Alter und Hintergrund ausreichend repräsentativ ist.“ Anders gesagt: Sie sollen vielfältig besetzt sein.
Deutschland nimmt diese Vorgabe seit Jahren nicht besonders ernst, vor allem, was das Alter angeht. Angeblich sind ältere Musikprofis in Deutschland einfach nicht zu gewinnen für die verantwortungsvolle Aufgabe. In diesem Jahr besetzte Thomas Schreiber, der für den Eurovision Song Contest zuständige Unterhaltungschef des NDR, die deutsche Jury mit Sängerin Namika (24), Sängerin Sarah Connor (35), Sängerin Anna Loos (45) und den beiden Sängern Boss Burns (44) und Hoss Power (44) der Band The BossHoss.
Darauf muss man erst einmal kommen, wenn man eine überaus einflussreiche Jury vielfältig besetzen soll: Gleich zwei von fünf Plätzen den Country-Cover-Boys einer Band zu geben.
Jedenfalls waren sich die fünf deutschen Juroren – wie schon in den vergangenen Jahren – wieder einmal erstaunlich einig in ihrem Urteil über die ESC-Kandidaten. Vier von fünf setzten Israel auf Platz 1. Alle sahen Schweden unter den ersten vier, Ukraine auf Platz 4 oder 5, Tschechien, Malta, Aserbaidschan und Zypern unter den letzten fünf.
Nicht nur zwischen den Herren Boss und Hoss gab es große Übereinstimmungen in der Bewertung, auch die anderen waren sich regelmäßig sehr einig über die grobe Positionierung jedes Teilnehmers. Nur die 24-jährige Namika wich in ihrem Votum gelegentlich vom allgemeinen Konsens ab.
Der Gleichklang im Urteil war bei der deutschen Jury in diesem Jahr größer als bei allen anderen Ländern. Errechnen lässt sich das mithilfe der „Standardabweichung“, einem mathematischen Maß, das angibt, wie sehr einzelne Daten von ihrem Mittelwert abweichen. Je kleiner die Standardabweichung im Durchschnitt ist, desto größer war der Konsens innerhalb der Jury.
Jury | Standard- abweichung |
---|---|
Deutschland | 2,70 |
Ukraine | 2,72 |
Armenien | 2,82 |
Tschechien | 3,15 |
Litauen | 3,31 |
Malta | 3,34 |
Bosnien Herzegowina | 3,37 |
Aserbaidschan | 3,40 |
Weißrussland | 3,42 |
Serbien | 3,73 |
Moldau | 3,74 |
Griechenland | 3,77 |
Norwegen | 3,84 |
Österreich | 3,86 |
Zypern | 3,91 |
Australien | 3,92 |
Russland | 3,94 |
Bulgarien | 3,95 |
Montenegro | 4,02 |
Lettland | 4,04 |
Schweden | 4,05 |
Belgien | 4,07 |
Albanien | 4,08 |
Frankreich | 4,20 |
Israel | 4,21 |
Georgien | 4,29 |
Spanien | 4,36 |
Italien | 4,48 |
Slowenien | 4,49 |
Großbritannien | 4,56 |
Kroatien | 4,60 |
Schweiz | 4,73 |
Niederlande | 4,76 |
Estland | 4,78 |
Finnland | 4,78 |
Polen | 4,90 |
FYR Mazedonien | 5,08 |
Island | 5,15 |
Ungarn | 5,19 |
Irland | 5,33 |
San Marino | 5,92 |
Dänemark | 6,23 |
Die Standardabweichung kann nur angeben, wie groß die Übereinstimmung ist, aber nicht, was ihre Ursache ist. Verbotene Absprachen wären eine Möglichkeit: Vor zwei Jahren fiel die Jury aus Georgien auf, weil alle fünf Juroren dort die ersten acht Plätze exakt gleich vergeben hatten – sie wurde disqualifiziert. Aber eine geringe Standardabweichung kann auch bedeuten, dass die Juroren einfach einen sehr, sehr ähnlichen Musikgeschmack haben.
(Dass eine große Standardabweichung nicht zwingend ein Beweis für Juryqualität ist, zeigt das Beispiel Dänemark, das seinen hohen Wert natürlich dem falschen Votum der unglücklichen Hilda verdankt.)
„Jedes Jurymitlied soll unabhängig von den anderen abstimmen“, heißt es in den Regeln der Eurovision. Wenn es wirklich stimmt, was mir Thomas Schreiber vor zwei Jahren sagte, dass „ein Austausch der Juroren untereinander während der Sendung und der anschließenden Abstimmung nicht stattfindet“, dann finde ich die Übereinstimmung der Urteile erstaunlich. Da sitzen fünf Leute in einem Raum, sprechen sich nicht ab und haben fast keinen Dissens, wie 25 Beiträge zu bewerten sind – unterscheiden sich in diesem relativ einmütigen Urteil dann aber dramatisch von dem von Hunderttausenden Anrufern im Land? Das ist doch rätselhaft.
Es spricht mindestens gegen die Auswahl der Jury, denn wenn die fünf sich so ähnlich sind, lässt sich das Gewicht, das ihr Urteil bei diesem Wettbewerb hat, noch weniger rechtfertigen.
Einen kleinen Einblick in die Realität eines solchen Gremiums bekam man in diesem Jahr dank der russischen Jurorin Anastasia Stotskaja, die aus der gemeinsamen Sichtung des Halbfinals per Periscope live streamte. Zu hören waren dabei angeblich abfällige Kommentare oder auch Sätze wie: „Ich bin für Armenien. Mein Mann ist Armenier.“ (Stotskaja wurde danach suspendiert.)
Es hat in diesem Jahr und in den vergangenen Jahren so viele Anlässe gegeben, am Urteil dieser Juroren zu zweifeln. Ich weiß noch, was für eine Befreiung es war, als 1998 die Jurys weitgehend durch das Televoting abgelöst wurden – nicht zuletzt auf Bestreben des damaligen deutschen Grand-Prix-Chefs Jürgen Meier-Beer. Natürlich führt es teilweise zu merkwürdigen Ergebnissen, wenn man einfach das Publikum abstimmen lässt, zu Nachbarschaftspunkten (etwa im Baltikum untereinander) und zu Diasporapunkten (etwa von Deutschland in die Türkei oder von den Niederlanden nach Armenien). Aber jedes erratische Stimmverhalten von zigtausenden Menschen ist doch dem erratischen Stimmverhalten von irgendwelchen fünf vom Sender ausgewählten Menschen vorzuziehen.
Ziel der Wiedereinführung der Jurys 2009 mit einem Wertungsanteil von 50 Prozent war es, die vermeintlichen Auswüchse von Freundschaftsstimmen, die nicht musikalisch motiviert waren, zu dämpfen. Dabei gibt es wenig Indizien dafür, dass Jurys sich nicht auch von sachfremden Erwägungen leiten lassen. An die Stelle der Freundschaftsstimmen treten bei ihr politische Wertungen. Man sieht das zum Beispiel in Aserbaidschan, wo seit Veröffentlichung der Einzelergebnisse jedes Jurymitglied in jedem Jahr den Erzfeind Armenien auf den letzten Platz setzte. Russland landet bei den aserbaidschanischen Juroren immer auf Platz 1.
Entsprechend gaben auch Russland und die Ukraine einander (anders als ihre Zuschauer) keine Jury-Punkte. Auch die null Punkte der estnischen Jury für Russland lassen sich politisch erklären. Und eine Sympathie für Nachbarn lässt sich durchaus nicht nur beim Publikum, sondern auch in manchen Jurys erkennen, in diesem Jahr etwa bei den guten Wertungen von Lettland und Litauen füreinander.
Man kann ja den russischen Politikern mit einigem Recht vorwerfen, schlechte Verlierer zu sein, wenn sie sich jetzt lautstark beklagen, dass ihr Titel, der vom europäischen Publikum die meisten Stimmen bekam, von den Jurys um den Sieg gebracht wurde. Nur ist dieser Vorwurf nicht ganz so abwegig. Es braucht dafür gar keine Verschwörung, es braucht nur Jurys, die nicht nachvollziehbare Urteile fällen – und im Zweifel auch politisch entscheiden.
Es gäbe so eine einfache Lösung für das alles: Die Jurys müssen wieder abgeschafft werden. Der ganze Irrsinn der Abstimmung wäre dann nur wieder der ganz normale Irrsinn eines Wettbewerbs, in dem Länder um die Wette singen und ihre Zuschauer – nach welchen Kriterien auch immer – entscheiden, wer es ihrer Meinung nach am besten gemacht hat.
Ich kann mich nicht richtig entscheiden, wie ich die Bezeichnung der beiden Herren von BossHoss als „Country-Cover-Boys“ finde. Kommt mir unnötig despektierlich vor. Andererseits präsentieren die beiden sich ja auch so und haben es sicherlich auch verdient.
Wiederum andererseits finde ich es in diesem Kontext doch wieder so unnötig, dass es mir unangemessen vorkommt, denke ich.
Es wäre ja schon geholfen, wenn man wenigstens das absurde Ranking bis zum 25. Platz abschaffen würde, denn das ist auch der Grund dafür, dass beim dänischen Vorfall so viel Gewicht drin steckt. Kein Mensch kann sagen, ob ein bestimmtes Lied nun das 21. beste ist oder doch etwas besser oder schlechter. Und wenn man sich das Video aus Russland anschaut, wird doch niemand bestreiten, dass da nicht gegenseitig beeinflusst wird.
Es wäre ja schon geholfen, wenn man wenigstens das absurde Ranking bis zum 25. Platz abschaffen würde, denn das ist auch der Grund dafür, dass beim dänischen Vorfall so viel Gewicht drin steckt.
Das braucht man aber, um dann aus fünf Jury-Stimmen eine durchschnittliche Jury-Wertung zu errechnen.
Bild.de hat eine alternative Punktevergabe ausprobiert, bei der jeder Platz Punkte bekommt und nicht nur die jeweils ersten zehn bei Jury und Publikum eines Landes: Australien hätte gewonnen, im Mittelfeld hätte es teils erhebliche Unterschiede gegeben.
Denn das ist ja das eigentlich ungerechte an dem System: Du kannst theoretisch in jedem Land Elfter werden und stehst am Ende als Letzter mit null Punkten da — im schlimmsten Fall hinter einem Land, das in 40 Ländern letzter geworden ist, aber in einem einzigen Zehnter.
Man müsste sich dafür nur von der letzten großen ESC-Tradition verabschieden: Den zwölf Punkten als Höchstwertung.
@Lukas: Das ging ja vor 2013 auch. Die Juroren sollen dann nur den ersten 10 Liedern Punkte geben und alle anderen haben dann einfach 0 Punkte. Alles wird zusammengezählt und anhand der Summe wird ein Ranking gemacht, das den Jury-Punkten entspricht. Vor allem hat man dann auch die Parallele zu den Televotingpunkten: Für ein Lied, das ich absolut hasse, rufe ich genau so wenig an wie für ein Lied, das ist einfach nur nicht gut finde.
Wie wird denn aus den Wertungen der Jury das Ranking. Ich hätte gedacht: einfach die Plätze addieren und je niedriger die Summe desto weiter vorne. Wenn ich das aber auf die Abstimmung anwende, wie sie Hilda Heick eigentlich wollte, komme ich z.B. für Russland auf 57, für die Ukraine auf 51 Punkte. Also läge die Ukraine vor Russland. Was aber der offiziellen Aussage widerspricht, dass die Ukraine bei aufmerksamer Hilda gar keinen Punkt bekommen hätte (bei „Points from DK jury without mistake“ kommt Russland nämlich auf 3).
Vielleicht kann mich ein Regelkundigerer da erleuchten?!
@Walt: Ich komme auf 47 Punkte für Russland.
@Stefan: Ups. Wenn das mein Mathelehrer sieht. Danke fürs Nachrechnen.
Ähm… In dem verlinkten Artikel steht, sie habe der Ukraine versehentlich 12 Punkte gegeben. Und nicht Georgien. Oder kapier ich (als jemand, der den ESC für eine Taste auf der Computertastatur hält) irgendwas nicht?
@Andre: Nicht sie gab der Ukraine 12 Punkte, sondern Dänemark insgesamt tat dies. Sie setze Georgien auf 1/26 und Ukraine auf 2/26 statt 26/26 und 25/25 (einzelne Juroren verteilen Plätze, keine Punkte). Dadurch rutschte die Ukraine von Platz 11 auf Platz 1 und erhielt statt 0 insgesamt 12 Punkte.
Ahso. Danke für’s Aufklären.
So wie ich das sehe und der Artikel es auch argumentiert, kann die Jurywertung das Ergebnis derart verbiegen, dass es nicht mehr allgemeine Stimmung reflektiert.
Wobei das im Fall Russland wohl nichts gebracht hat, die Jury stimmt nicht für die Ukraine, die Zuschauer sehr wohl. In der Ukraine war es genau umgekehrt.
Hier sieht man, dass die Menschen in diesen Ländern vielleicht eine etwas andere Meinung zur aussenpolitischen Haltung ihres Landes habe, als man ihnen im ersten Moment unterstellen würde.
Natürlich könnte man der Wahl in der Ukraine unterstellen, dass dort unter Umständen gewisse Einflüsse geherrscht haben könnten, allerdings lässt sich dieses Argument nicht auf Russland abbilden, da das Ergebnis dort hätte anders aussehen müssen.
Allerdings spricht das Bild gerade dadurch für den Verwurf der politisch ausgerichteten Jurys.
Interessant wäre also ein Vergleich zwischen Jury und Zuschauern im Einzelnen.
Ich bin immer überrascht, wenn von „Freundschaftspunkten“ zwischen Nachbarn gesprochen wird. Ist es nicht viel mehr so, dass in den besonders häufig betroffenen Ländern einfach mehr Menschen im Nachbarland leben, die dann für ihre Heimat anrufen? Also z.B. Russen, die in der Ukraine leben und Ukrainer in Russland?
Warum wird im Artikel die mittlere Standardabweichung verwendet und nicht die mittlere Varianz (bei der dann die Ukraine ein höheres Maß erhält als Deutschland)? Letztere (in https://de.wikipedia.org/wiki/Varianzanalyse als MQSA bezeichnet) ist u.a. deswegen üblich, weil ihre Verteilung gut zu bestimmen ist (unter NV und H0).
Noch besser wäre die Verwendung der Friedman-Testgröße (die im wesentlichen den Nenner der ANOVA-Prüfgröße ergänzt) oder gar dessen normalisierte Variante, Kendalls W (es gibt Länder die 26 und welche die 25 mal gestimmt haben; Normalisieren verschiebt also leicht). Letzteres ist eine übliche Größe für genau dieses Szenario: die Beurteilung von rangordnenden Juroren (s. https://de.wikipedia.org/wiki/Interrater-Reliabilit%C3%A4t). R-Code für meine Rechnungen:
https://gist.github.com/anonymous/78999aeaf6c010e6a149f1646956a454
Ich erhalte 3 mal Ukraine vor GER. Merkwürdigerweise kann ich Ihre Daten auch bei Nutzung der Standardabweichung (und div. Skalierungen wegen ggf. versch. Nenner) nicht exakt verifizieren (erhalte aber GER vor UKR). Welche Formel nutzen Sie genau für die Werte im Artikel?
Disclaimer: Mir geht es nicht darum, Ihren Artikel schlecht zu machen, aber wenn schon Statistik eingesetzt wird, dann sollte dies nach üblichen Standards geschehen (oder erklärt werden, warum nicht) und auch transparent gemacht werden, was genau berechnet wird. Drei Formeln werden schon nicht so viele Leser abschrecken ;)
@Matze,@Jinsu: Wie im Kommentar zum anderen ESC-Artikel skizziert (https://uebermedien.de/4752/die-neue-punktevergabe-ruiniert-den-eurovision-song-contest/#comment-3689): dass die Jury etwas „verbiegt“, was die „allgemeine Stimmung“ ist und „Freundschaftspunkte“ (ganzer Staaten/Völker) lassen sich aus den dürftigen Televotingdaten nicht seriös schließen (wir haben nicht mal Anruferanteile, geschweige denn Absolutwerte).
Stellen Sie sich zum Televoting einfach mal folgende Fragen:
– Haben Sie selbst abgestimmt (ich nicht)?
– Wer stimmt sonst wirklich ab (kostet u.a. Geld)?
– Wie oft stimmt jeder ab? (1mal oder 20mal (ist Max.)?)
– Was kann/wird jemand tun, der viele Songs „halbwegs gewinnwürdig“ findet und einen richtig schlecht? (jedenfalls nicht für alle „guten“ 20 mal anrufen)
Um das Voting zu beeinflussen braucht es bei vermutlich relativ geringer Beteiligung gar keine so großen Minderheiten. Ich erinnere z.B. an 12 Punkte ESP->GER im Jahr 2000 (sonst nur aus SUI und AUT, alles ein wenig orakeln).
Wenn man sich dann überlegt, welche Reichweite RTdeutch etc. momentan haben (laut Google haben sie vor dem ESC schon mal vor vermeintlicher Politisierung gewarnt – kann man auch als Aufruf zum Anruf sehen), kann man sich leicht eine höchst asymmetrische Mobilisierung vorstellen. Da fühle ich mich selbst durch BossHoss besser vertreten ;) Die Argumente fürs Televoting hier ähneln übrigens sehr der Parlamentarismus-vs-Volksabstimmungen-Debatte (vgl. z.B. den Volksentscheid zum Hamburger Bildungssystem, der vermutlich auch eine höchst asymmetrische Mobilisierung aufwies ).
Meiner Meinung nach ist dieser ganze Wettbewerb kaputt. Noch nicht einmal seinem Titel – nämlich ein „Song Contest“ zu sein – wird er gerecht. Natürlich wäre das zu beheben. Zum Beispiel in dem man alle Lieder von einem einzelnen Interpreten (gerne der Siegernation) singen lässt. So ist es aber eine Farce. Es ist einfach zu viel Politik im Spiel. Das sollte nicht so sein.