Wessen Bewertungen sollten Sie vertrauen? IMDB, faule Tomaten, metakritisch oder Fandango?

Ein Datenwissenschaftler untersucht

Solltest du einen Film sehen? Nun, es gibt viele Faktoren zu berücksichtigen, wie den Regisseur, die Schauspieler und das Budget des Films. Die meisten von uns stützen ihre Entscheidung auf eine Rezension, einen kurzen Trailer oder einfach auf die Bewertung des Films.

Es gibt einige gute Gründe, warum Sie das Lesen von Rezensionen oder das Ansehen eines Trailers vermeiden möchten, obwohl diese viel mehr Informationen als eine Bewertung enthalten.

Erstens möchten Sie möglicherweise Spoiler, egal wie klein sie auch sein mögen, vollständig vermeiden. Ich verstehe das!

Zweitens könnte es sein, dass Sie eine unbeeinflusste Erfahrung beim Ansehen dieses Films wünschen. Dies gilt normalerweise nur für Rezensionen, die mit Frames bestreut sind, wie „Dies ist ein Film über die Komplexität des Universums“ oder „In diesem Film geht es wirklich nicht um Liebe“. Sobald diese Bilder in Ihrem Kurzzeitgedächtnis verschlüsselt sind, ist es wirklich schwierig zu verhindern, dass sie Ihr eigenes Filmerlebnis beeinträchtigen.

Ein weiterer guter Grund ist, dass Sie, wenn Sie müde oder eilig sind, möglicherweise keine Rezension lesen möchten, geschweige denn einen 2-minütigen Trailer ansehen möchten.

Eine numerische Filmbewertung scheint also in einigen Situationen für einige Leute eine gute Lösung zu sein.

Dieser Artikel zielt darauf ab, eine einzelne Website zu empfehlen, um schnell eine genaue Filmbewertung zu erhalten, und bietet eine robuste, datengesteuerte Argumentation dafür.

Kriterien für „die Besten“

Eine solche Empfehlung abzugeben ist ähnlich wie zu sagen: „Dies ist der beste Ort, um nach einer Filmbewertung zu suchen.“ Dies ist eine bewertende Aussage, die auf einigen Kriterien beruht, anhand derer bestimmt wird, was besser, was schlechter oder am schlechtesten ist und was am besten ist , in diesem Fall. Für meine Empfehlung werde ich ein einziges Kriterium verwenden: eine Normalverteilung.

Der beste Ort, um nach einer Filmbewertung zu suchen, besteht darin, zu sehen, welche Bewertungen in einem Muster verteilt sind, das dem Muster einer Normalverteilung am ähnlichsten ist oder mit diesem identisch ist. Dies ist: bei einer Reihe von Werten, die in einem bestimmten Intervall liegen Die meisten von ihnen sind mittendrin und die wenigen anderen in den Extremen dieses Intervalls. Im Allgemeinen sieht eine normale (auch als Gaußsche) Verteilung so aus:

Was ist der Grund für dieses Kriterium? Aus meiner eigenen Erfahrung mit mehreren hundert Filmen kann ich sagen, dass ich Folgendes gesehen habe:

  • ein paar herausragende, die ich mehrmals gesehen habe
  • Ein Paar, das wirklich entsetzlich war und mich die Zeit bereuen ließ, die ich damit verbracht hatte, sie zu beobachten
  • und eine ganze Reihe durchschnittlicher, für die ich mich größtenteils nicht mehr an die Handlung erinnern kann.

Ich glaube, dass die meisten Menschen - ob Kritiker, Cinephile oder nur normale Kinogänger - ähnliche Erfahrungen gemacht haben.

Wenn Filmbewertungen tatsächlich die Filmqualität ausdrücken, sollten wir für beide das gleiche Muster sehen.

Angesichts der Tatsache, dass die meisten von uns den Großteil der Filme als durchschnittlich bewerten, sollten wir bei der Analyse der Filmbewertungen dasselbe Muster erkennen. Eine ähnliche Logik gilt für schlechte und gute Filme.

Wenn Sie noch nicht überzeugt sind, dass es eine solche Entsprechung zwischen den Mustern geben sollte, denken Sie über die Verteilung der Bewertungen für einen einzelnen Film nach. Da viele Leute den Film bewerten, ist es kein Vertrauenssprung anzunehmen, dass es meistens viele von ihnen mit ähnlichen Vorlieben gibt. Sie sind sich im Allgemeinen einig, dass der Film entweder schlecht, durchschnittlich oder gut ist (ich werde diese qualitativen Werte später quantifizieren). Es wird auch einige andere geben, die den Film mit einem der beiden anderen qualitativen Werte bewerten.

Wenn wir die Verteilung aller Bewertungen für einen einzelnen Film visualisieren würden, würden wir höchstwahrscheinlich sehen, dass sich in einem der Bereiche, die einer niedrigen, durchschnittlichen oder hohen Bewertung entsprechen, ein einzelner Cluster bildet.

Vorausgesetzt, die meisten Filme werden als durchschnittlich angesehen, hat der Cluster um die durchschnittliche Fläche die größte Wahrscheinlichkeit des Auftretens, und die beiden anderen Cluster haben eine geringere (aber immer noch signifikante) Wahrscheinlichkeit. (Beachten Sie, dass all diese Wahrscheinlichkeiten im Prinzip quantifiziert werden können, dies jedoch viele Daten erfordern würde und das Potenzial hätte, diesen Artikel in ein Buch umzuwandeln.)

Am unwahrscheinlichsten wäre eine gleichmäßige Verteilung, in der es keine Cluster gibt und die Präferenzen der Menschen fast gleichmäßig auf die drei qualitativen Werte verteilt sind.

Angesichts dieser Wahrscheinlichkeiten sollte die Verteilung der Bewertungen für eine ausreichend große Stichprobe von Filmen eine mit einem stumpfen Cluster im Durchschnittsbereich sein, der von Balken mit abnehmender Höhe (Häufigkeit) begrenzt wird, was einer Normalverteilung ähnelt.

Wenn Sie all dies schwer zu verstehen gefunden haben, betrachten Sie diese Abbildung:

IMDB, faule Tomaten, Fandango oder metakritisch?

Nachdem wir nun ein Kriterium haben, mit dem wir arbeiten können, wollen wir uns mit den Daten befassen.

Es gibt viele Websites, die ihre eigenen Filmbewertungen erstellen. Ich habe nur vier ausgewählt, hauptsächlich aufgrund ihrer Beliebtheit, damit ich Bewertungen für Filme mit einer akzeptablen Anzahl von Stimmen erhalten kann. Die glücklichen Gewinner sind IMDB, Fandango, Rotten Tomatoes und Metacritic.

In den letzten beiden habe ich mich nur auf ihre ikonischen Bewertungstypen konzentriert - nämlich das Tomatometer und das Metascore -hauptsächlich, weil diese für den Benutzer auf jeder der Websites besser sichtbar sind (was bedeutet, dass sie schneller gefunden werden können). Diese werden auch auf den beiden anderen Websites geteilt (der Metascore wird auf IMDB und das Tomatometer auf Fandango geteilt). Neben diesen ikonischen Bewertungen haben beide Websites auch einen Bewertungstyp mit weniger Funktionen, bei dem nur Benutzer Beiträge leisten können.

Ich habe Bewertungen für einige der am meisten bewerteten und bewerteten Filme in den Jahren 2016 und 2017 gesammelt. Der bereinigte Datensatz enthält Bewertungen für 214 Filme und kann von diesem Github-Repo heruntergeladen werden.

Ich habe keine Bewertungen für Filme gesammelt, die vor 2016 veröffentlicht wurden, einfach weil sich das Bewertungssystem von Fandango kurz nach Walt Hickeys Analyse, auf die ich später in diesem Artikel verweisen werde, geringfügig geändert hat.

Ich bin mir bewusst, dass die Arbeit mit einer kleinen Stichprobe riskant ist, aber dies wird zumindest dadurch kompensiert, dass der neueste Schnappschuss der Verteilungen der Ratings erstellt wird.

Lassen Sie mich vor dem Zeichnen und Interpretieren der Verteilungen die qualitativen Werte quantifizieren, die ich zuvor verwendet habe: Auf einer Skala von 0 bis 10 liegt ein schlechter Film irgendwo zwischen 0 und 3, ein durchschnittlicher zwischen 3 und 7 und ein guter zwischen 7 und 10 .

Bitte beachten Sie die Unterscheidung zwischen Qualität und Quantität. Um es im Folgenden erkennbar zu halten, bezeichne ich Bewertungen (Menge) als niedrig, durchschnittlich oder hoch. Nach wie vor wird die Filmqualität als schlecht, durchschnittlich oder gut ausgedrückt. Wenn Sie sich Sorgen machen, dass der „durchschnittliche“ Begriff derselbe ist, tun Sie dies nicht, da ich darauf achten werde, Unklarheiten zu vermeiden.

Schauen wir uns nun die Distributionen an:

Auf einen einfachen Blick ist zu erkennen, dass das Histogramm des Metascores (so wird diese Art von Grafik genannt) einer Normalverteilung am ähnlichsten ist. Es hat eine dicke Ansammlung im durchschnittlichen Bereich, die aus Stäben unregelmäßiger Höhe besteht, wodurch die Oberseite weder stumpf noch scharf wird.

Sie sind jedoch zahlreicher und höher als die Balken in jedem der beiden anderen Bereiche, deren Höhe zu Extremen hin mehr oder weniger allmählich abnimmt. All dies zeigt deutlich, dass die meisten Metascores einen Durchschnittswert haben, was ziemlich genau das ist, wonach wir suchen.

Im Fall von IMDB liegt der Großteil der Verteilung ebenfalls im Durchschnittsbereich, es besteht jedoch eine offensichtliche Abweichung zu den höchsten Durchschnittswerten. Der Bereich mit hohen Bewertungen ähnelt dem, was für eine Normalverteilung in diesem Teil des Histogramms zu erwarten wäre . Das auffällige Merkmal ist jedoch, dass der Bereich mit niedrigen Filmbewertungen vollständig leer ist, was ein großes Fragezeichen aufwirft.

Anfangs gab ich der kleinen Stichprobe die Schuld, weil ich dachte, dass eine größere der IMDB mehr gerecht werden würde. Glücklicherweise konnte ich auf Kaggle einen vorgefertigten Datensatz mit IMDB-Bewertungen für 4.917 verschiedene Filme finden. Zu meiner großen Überraschung sah die Verteilung folgendermaßen aus:

Die Form der Verteilung sieht fast genauso aus wie bei der Stichprobe mit 214 Filmen, mit Ausnahme des Bereichs mit niedrigen Bewertungen, der in diesem Fall nur schwach mit 46 Filmen (von 4917) besetzt ist. Der Großteil der Werte liegt immer noch im Durchschnittsbereich, weshalb das IMDB-Rating für eine Empfehlung weiter in Betracht gezogen werden sollte, obwohl es mit diesem Versatz eindeutig schwer ist, mit dem Metascore zu konkurrieren.

Was an diesem Ergebnis wirklich großartig ist, ist, dass es als starkes Argument verwendet werden kann, um die These zu stützen, dass die Stichprobe mit 214 Filmen für die gesamte Bevölkerung ziemlich repräsentativ ist. Mit anderen Worten, es besteht jetzt ein größeres Vertrauen, dass die Ergebnisse dieser Analyse den erzielten oder zumindest ähnlichen Ergebnissen entsprechen würden, wenn absolut alle Filmbewertungen aller vier Websites analysiert würden.

Lassen Sie uns mit diesem erhöhten Vertrauen die Verteilung der Bewertungen von Fandango untersuchen, die sich seit Hickeys Analyse nicht wesentlich geändert zu haben scheint. Der Versatz ist immer noch sichtbar in Richtung des höheren Teils des Filmbewertungsspektrums, in dem sich die meisten Bewertungen befinden. Der Bereich für die untere Hälfte der Durchschnittsbewertungen ist vollständig leer, genau wie der für niedrige Bewertungen. Es kann leicht geschlossen werden, dass die Verteilung weit von meinem Kriterium entfernt ist. Folglich werde ich es für eine mögliche Empfehlung nicht weiter betrachten.

(Ich verspreche, dass die Qual des Bildlaufs bald endet. Es ist viel einfacher, die Verteilungen zu vergleichen, wenn sie nebeneinander platziert werden, als sie über den Artikel zu verteilen.)

Schließlich ist die Verteilung des Tomatometers unerwartet gleichmäßig und würde unter einer anderen Binning-Strategie noch flacher aussehen (eine Binning-Strategie wird durch die Gesamtzahl der Balken und deren Bereiche definiert; Sie können mit diesen beiden Parametern spielen, wenn Sie ein Histogramm erstellen). .

Diese Verteilung ist im Kontext nicht einfach zu interpretieren, da es sich bei dem Tomatometer nicht um eine klassische Bewertung handelt, sondern um den Prozentsatz der Kritiker, die einen Film positiv bewertet haben. Dies macht es ungeeignet für den qualitativen Rahmen von schlecht, durchschnittlich, gut, weil es Filme entweder gut oder schlecht macht. Wie auch immer, ich denke, es sollte immer noch auf die gleiche Normalverteilung hinauslaufen, wobei die meisten Filme einen moderaten Unterschied zwischen der Anzahl der positiven und den negativen Bewertungen aufweisen (was viele Bewertungen von 30% - 70% positiven Bewertungen ergibt), und a Nur wenige Filme haben auf die eine oder andere Weise einen wesentlich größeren Unterschied.

Angesichts der letzten Überlegung und der Form der Verteilung erfüllt das Tomatometer mein Kriterium nicht. Es könnte sein, dass eine größere Stichprobe dem mehr gerecht wird, aber wenn ich es empfehlen würde, würde ich es aufgrund des vagen positiven oder negativen Bewertungssystems mit einigen Reserven tun.

An diesem Punkt der Analyse könnte ich sagen, dass meine Empfehlung bei Betrachtung der Verteilungen der Metascore ist.

Die Verteilung der IMDB scheint jedoch ebenfalls eine Überlegung wert zu sein, insbesondere wenn Sie die Bewertungsintervalle für die drei qualitativen Kategorien (Intervalle, die ich selbst mehr oder weniger willkürlich definiert habe) ein wenig anpassen. Aus dieser Perspektive reicht es eindeutig nicht aus, den Metascore durch eine meist visuelle Untersuchung zu empfehlen.

Ich werde also versuchen, diese beiden mithilfe einer quantitativen Methode abzugrenzen .

Die Idee ist, die Fandango-Variable als negative Referenz zu verwenden und dann aus der IMDB-Bewertung und dem Metascore zu bestimmen, welche Variable am wenigsten damit korreliert (ich nenne diese Variablen, weil sie unterschiedliche Werte annehmen können - zum Beispiel den Metascore ist eine Variable, da sie je nach Film unterschiedliche Werte annimmt.

Ich werde einfach einige Korrelationskoeffizienten berechnen, und die Variable mit dem kleinsten Wert wird meine Empfehlung sein (ich werde dann erklären, wie diese Korrelationskoeffizienten funktionieren). Aber lassen Sie mich vorher kurz rechtfertigen, die Fandango-Variable als negative Referenz zu wählen.

Fandangos Benutzer lieben Filme zu sehr

Ein Grund für diese Wahl ist, dass die Verteilung der Filmbewertungen von Fandango am weitesten von der einer normalen entfernt ist und diese offensichtliche Abweichung zum höheren Teil des Filmbewertungsspektrums aufweist.

Der andere Grund ist die Verdachtswolke um Fandango, die Walt Hickeys Analyse hinterlassen hat. Im Oktober 2015 war er auch verwirrt über eine ähnliche Verteilung und stellte fest, dass auf der Website von Fandango die numerischen Bewertungen immer auf den nächsthöheren Halbstern gerundet wurden, nicht auf den nächsten (zum Beispiel eine durchschnittliche Bewertung von 4,1 für einen Film) wurden auf 4,5 statt 4,0 gerundet).

Das Fandango-Team korrigierte das voreingenommene Bewertungssystem und sagte Hickey, dass die Bewertungslogik eher ein „Softwarefehler“ auf ihrer Website sei, der auf ein unvoreingenommenes System in ihrer mobilen App hinweise. (Mehr dazu in Hickeys Artikel.) Die Anpassung hat einige statistische Parameter zum Besseren verändert, aber nicht genug, um mich davon zu überzeugen, nicht mit der Fandango-Variablen als negativer Referenz zu arbeiten.

So sieht die Änderung aus:

Lassen Sie uns nun Fandango vergrößern:

Welches ist zwischen dem Metascore- und dem IMDB-Rating am wenigsten mit dem Fandango-Rating korreliert?

Das am wenigsten mit dem Fandango-Rating korrelierte ist der Metascore. Es hat einen Pearson-r- Wert von 0,38 in Bezug auf Fandango, während das IMDB-Rating einen Wert von 0,63 hat.

Lassen Sie mich das alles jetzt erklären.

Wenn sich zwei Variablen ändern und unterschiedliche Werte annehmen, werden sie korreliert, wenn es ein Muster gibt, das beiden Änderungen entspricht. Das Messen der Korrelation bedeutet einfach das Messen des Ausmaßes, in dem es ein solches Muster gibt.

Eine Möglichkeit, diese Messung durchzuführen, besteht darin, das Pearson-R zu berechnen. Wenn der Wert +1,0 ist, bedeutet dies, dass eine perfekte positive Korrelation vorliegt, und wenn er -1,0 beträgt, bedeutet dies, dass eine perfekte negative Korrelation vorliegt.

Das Ausmaß, in dem die Variablen korreliert sind, nimmt ab, wenn sich das Pearson-r 0 nähert, sowohl von der negativen als auch von der positiven Seite.

Lassen Sie uns dies besser visualisieren:

Um die obige Abstraktion in einen Zusammenhang zu bringen: Wenn wir vergleichen, wie sich die Werte für zwei Bewertungstypen ändern - beispielsweise für Fandango und IMDB -, können wir bestimmen, inwieweit es ein Muster gibt, das beiden Änderungen entspricht.

Angesichts der gerade erwähnten Korrelationskoeffizienten gibt es ein größeres Muster zwischen Fandango und IMDB als bei Fandango und dem Metascore. Beide Koeffizienten sind positiv, und als solche wird die Korrelation als positiv bezeichnet, was bedeutet, dass mit steigenden Fandango-Ratings auch die IMDB-Ratings tendenziell stärker steigen als die Metascores.

Anders ausgedrückt, für eine bestimmte Filmbewertung auf Fandango ist es wahrscheinlicher, dass sich der Metascore stärker von der IMDB-Bewertung unterscheidet.

Das Urteil: Verwenden Sie Metacritics Metascore

Alles in allem empfehle ich, den Metascore zu überprüfen, wenn Sie nach einer Filmbewertung suchen. Hier ist, wie es funktioniert und seine Nachteile.

Kurz gesagt, der Metascore ist ein gewichteter Durchschnitt vieler Bewertungen von renommierten Kritikern. Das metakritische Team liest die Bewertungen und weist jeder eine Bewertung von 0 bis 100 zu, die dann gewichtet wird, hauptsächlich basierend auf der Qualität und Quelle der Bewertung. Weitere Informationen zu ihrem Bewertungssystem finden Sie hier.

Jetzt möchte ich nur auf einige Nachteile des Metascore hinweisen:

  • Die Gewichtungskoeffizienten sind vertraulich, sodass Sie nicht sehen können, inwieweit jede Überprüfung im Metascore gezählt wird.
  • Es fällt Ihnen schwer, Metascores für weniger bekannte Filme zu finden, die vor 1999, dem Jahr, in dem Metacritic erstellt wurde, erschienen sind.
  • Einige neuere Filme, deren Hauptsprache nicht Englisch ist, sind nicht einmal auf Metacritic aufgeführt. Beispielsweise sind die rumänischen Filme Two Lottery Tickets (2016) und Eastern Business (2016) nicht bei Metacritic gelistet, während sie bei IMDB mit Bewertungen aufgeführt sind.

Noch ein paar Worte

Zusammenfassend habe ich in diesem Artikel eine einzige Empfehlung abgegeben, wo nach einer Filmbewertung gesucht werden soll. Ich habe den Metascore empfohlen, basierend auf zwei Argumenten: Seine Verteilung ähnelt am meisten einer normalen und ist am wenigsten mit der Fandango-Bewertung korreliert.

Alle quantitativen und visuellen Elemente des Artikels sind in Python reproduzierbar, wie hier gezeigt.

Danke fürs Lesen! Und viel Spaß beim Filmen!