Warum Korrelation keine Ursache bedeutet - Die Bedeutung dieses allgemeinen Sprichworts in der Statistik

Vielleicht erinnern Sie sich an dieses einfache Mantra aus Ihrer Statistikklasse:

"Korrelation bedeutet keine Kausalität."

Vielleicht glauben Sie zu wissen, was dieser Satz bedeutet.

Wenn Sie wirklich hart in Statistik studiert, eine gute Note erhalten und dann das College besucht haben, muss dies bedeuten, dass Sie das College besucht haben, weil Sie die Statistikklasse erreicht haben.

Während diese Note zusammen mit den Fähigkeiten, die Sie gelernt haben, wahrscheinlich geholfen hat, können Sie die anderen Faktoren im Spiel nicht ignorieren - und wahrscheinlich nicht argumentieren, dass Ihre Statistiknote die Ursache für Ihre Aufnahme in das College war.

Das Wichtigste zuerst - warum verwechseln wir Korrelation mit Kausalität?

Es ist leicht zu glauben, dass nur weil zwei Dinge miteinander zusammenhängen, das eine die Ursache des anderen sein muss. Aber das kann eine dumme und manchmal gefährliche Annahme sein.

Angenommen, Sie versuchen herauszufinden, was die Menschen weniger mürrisch macht. Sie führen eine Studie durch, bei der festgestellt wird, dass Menschen, die mindestens x Stunden pro Nacht schlafen, weniger mürrisch sind.

Aber haben Sie hier alle Faktoren berücksichtigt? Vielleicht haben sie auch angefangen, mehr zu trainieren, weil sie ausgeruht waren, und das hat ihre Stimmung verändert.

Nicht alle Beispiele sind so harmlos - und einige sind geradezu unsinnig.

Um zu veranschaulichen, wie irreführend es sein kann anzunehmen, dass Korrelation Kausalität impliziert, sehen Sie sich die folgende Grafik aus Tyler Vigens Spurious Correlations an:

Obwohl es eine starke Korrelation zwischen diesen beiden Faktoren gibt, bezweifle ich, dass Sie effektiv argumentieren können, dass einer den anderen verursacht hat. Vielleicht ist dies eine Herausforderung für die Menschen, dies zu beweisen.

Hier ist ein weiteres Juwel aus Tylers Sammlung:

Schauen Sie sich diese schöne Korrelation an. Aber es fällt Ihnen schwer zu argumentieren, dass sich jemand, nur weil er mehr Käse gegessen hat, mit größerer Wahrscheinlichkeit tödlich in der Bettdecke verfängt.

Was ist Korrelation in der Statistik?

Nach dem Wörterbuch ist eine Korrelation eine gegenseitige Beziehung oder Verbindung zwischen zwei oder mehr Dingen (oder Variablen) - insbesondere eine, die nicht allein aufgrund des Zufalls erwartet wird.

Verwenden wir es in einem Satz: Die enorme Größe meiner einheimischen Tomaten scheint mit dem zusätzlichen Regen zu korrelieren, den wir diesen Sommer hatten.

Nun, hier gehe ich davon aus, dass meine Tomatenpflanzen verrückt wurden und Monstertomaten produzierten, weil es etwas mehr als sonst regnete.

Aber ist das der einzige Faktor? Was ist mit dem nährstoffreichen Kompost, den ich in meinen Hochbeeten verwendet habe? Was ist mit der Qualität der Pflanzen, die ich im Kindergarten gekauft habe? Was ist mit meinem sorgfältigen Beschneiden und Pflegen?

Wie Sie sehen, besteht zwar eine Korrelation zwischen meinen großen Tomaten und unserem regnerischen Sommer, dies bedeutet jedoch nicht unbedingt eine Verursachung.

Was ist Kausalität in der Statistik?

Zeit für eine andere Definition. Ursache ist laut Wörterbuch die Handlung oder Agentur, die eine Wirkung erzeugt.

Lassen Sie uns etwas genauer werden. Ursache bedeutet, dass zwischen zwei Ereignissen eine Beziehung besteht, bei der ein Ereignis das andere beeinflusst. Wenn in der Statistik der Wert eines Ereignisses - oder einer Variablen - aufgrund eines anderen Ereignisses oder einer anderen Variablen steigt oder fällt, können wir sagen, dass eine Ursache vorliegt. A hat B verursacht .

Wie wäre es mit einem Beispiel für dieses? Vielleicht sind Sie freiberuflich für eine Zeitschrift tätig, die sich nach dem Wort auszahlt. Je länger die Geschichte ist (und je mehr Wörter sie enthält), desto mehr werden Sie bezahlt.

Es besteht also ein direkter Zusammenhang zwischen der Anzahl der Wörter, die Sie schreiben, und der Höhe der Bezahlung. Aber es gibt auch eine Ursache (weil du mehr geschrieben hast, wurdest du mehr bezahlt).

Warum ist es so einfach, das falsch zu verstehen?

Warum ist es so einfach zu glauben, dass Korrelation Kausalität impliziert ? Nun, wenn zwei Dinge miteinander zusammenhängen, neigen wir dazu, sie miteinander zu verbinden und anzunehmen, dass sie sich gegenseitig beeinflussen. Wenn das Wetter kalt ist, verbringen die Leute mehr Zeit im Haus. Rund um die Feiertage sind die Einkaufszentren voll. Wenn Sie etwas Ibuprofen einnehmen, verschwinden Ihre Kopfschmerzen.

Obwohl diese Umstände sicherlich miteinander zusammenhängen - und einige sogar Kausalität implizieren könnten -, halten sie wissenschaftlichen Analysen nicht unbedingt stand.

Es gibt einige Gründe, warum wir fälschlicherweise die Kausalität aus der Korrelation ableiten könnten.

Was ist eine verwirrende Variable?

Zuallererst könnten Sie eine verwirrende Variable in der Mischung haben. Dies ist eine Variable, die sowohl die unabhängigen als auch die abhängigen Variablen in Ihrer Beziehung betrifft - und somit Ihre Fähigkeit beeinträchtigt, die Art dieser Beziehung zu bestimmen.

Wenn zum Beispiel eine neue Familie in eine Nachbarschaft zieht und die Kriminalität zunimmt, können die Bewohner dieser Gegend annehmen, dass dies an dieser neuen Familie liegt. Aber was ist, wenn gleichzeitig ein Internierungslager in der Nähe eröffnet wird? Das ist die wahrscheinlichste Ursache für die zunehmende Kriminalität.

Was ist umgekehrte Ursache?

Zweitens haben Sie es möglicherweise mit umgekehrter Kausalität zu tun . Dies geschieht, wenn Sie, anstatt richtig anzunehmen, dass A B verursacht, diese verwechseln und annehmen, dass B A verursacht.

Es ist schwer vorstellbar, wie dies geschieht, aber denken Sie daran, wie Sonnenkollektoren funktionieren. Sie produzieren mehr Strom, wenn die Sonne länger am Himmel steht.

Aber die Sonne steht nicht mehr am Himmel, weil die Panels mehr Strom produzieren. Die Paneele produzieren mehr Strom, weil die Sonne längere Zeit scheint.

Was ist ein Zufall?

Drittens dürfen wir die Kraft des Zufalls nicht vergessen . Wenn zwei Dinge gleichzeitig passieren, ist es verlockend, die Ursache zu erkennen. Aber genau wie diese dumme Grafik oben mit den Arkaden und CS-Graden sind viele nur Zufälle.

Am Ende - warum interessiert es uns?

Vielleicht versuchen Sie herauszufinden, ob sich Patienten durch ein bestimmtes neues Medikament besser fühlen. Oder Sie möchten wissen, warum Menschen ein bestimmtes Produkt kaufen.

Unabhängig von Ihrer Motivation ist es oft sehr nützlich herauszufinden, ob A B verursacht und wie und warum.

Aber wie wir gesehen haben, ist es nicht so einfach. Sie müssen so viele Faktoren wie möglich kontrollieren, die Wahrscheinlichkeit von Verwechslungen von Variablen und Zufällen verringern und die Daten auf das Wesentliche reduzieren.

Wir werden nicht auf die tiefere philosophische Frage eingehen, wie wir ohne Zweifel wirklich eine Kausalität feststellen können. Das ist für eine andere Zeit.

Zumindest wissen Sie jetzt, dass - obwohl zwei Ereignisse oder Variablen miteinander in Beziehung zu stehen scheinen - dies nicht bedeutet, dass eines einen direkten kausalen Einfluss auf das andere hat.