Was ist statistische Signifikanz? P Wert definiert und wie man ihn berechnet

P-Werte sind eines der am häufigsten verwendeten Konzepte in der statistischen Analyse. Sie werden von Forschern, Analysten und Statistikern verwendet, um Erkenntnisse aus Daten zu gewinnen und fundierte Entscheidungen zu treffen.

Neben der statistischen Signifikanz gehören sie auch zu den am häufigsten missbrauchten und missverstandenen Konzepten in der statistischen Analyse.

Dieser Artikel erklärt:

  • wie ein P-Wert verwendet wird, um auf statistische Signifikanz zu schließen
  • wie P-Werte berechnet werden
  • und wie man einige häufige Missverständnisse vermeidet

Rückblick: Hypothesentest

Das Testen von Hypothesen ist ein Standardansatz, um Erkenntnisse aus Daten zu gewinnen. Es wird in nahezu jeder quantitativen Disziplin eingesetzt und hat eine über hundertjährige Geschichte.

Der übliche Ansatz zum Testen von Hypothesen besteht darin, eine Frage anhand der Variablen zu definieren, an denen Sie interessiert sind. Anschließend können Sie zwei entgegengesetzte Hypothesen bilden, um sie zu beantworten.

  • Die Nullhypothese besagt , dass es keine statistisch signifikante Beziehung zwischen den Variablen gibt
  • Die alternative Hypothese besagt , dass es eine statistisch signifikante Beziehung zwischen den Variablen gibt

Angenommen, Sie testen, ob Koffein die Programmierproduktivität beeinflusst. Es gibt zwei Variablen, an denen Sie interessiert sind - die Dosis des Koffeins und die Produktivität einer Gruppe von Softwareentwicklern.

Die Nullhypothese wäre:

  • "Die Aufnahme von Koffein hat keinen signifikanten Einfluss auf die Programmierproduktivität".

Die alternative Hypothese wäre:

  • "Die Aufnahme von Koffein hat einen erheblichen Einfluss auf die Produktivität".

Das Wort "signifikant" hat hier eine ganz bestimmte Bedeutung. Es bezieht sich auf eine Beziehung zwischen Variablen, die aufgrund von mehr als nur Zufall existieren .

Stattdessen besteht die Beziehung (zumindest teilweise) aufgrund von "echten" Unterschieden oder Effekten zwischen den Variablen.

Der nächste Schritt besteht darin, einige Daten zu sammeln, um die Hypothesen zu testen. Dies kann aus einem Experiment oder einer Umfrage oder aus einem Datensatz stammen, auf den Sie Zugriff haben.

Der letzte Schritt besteht darin, eine Teststatistik aus den Daten zu berechnen. Dies ist eine einzelne Zahl, die einige Merkmale Ihrer Daten darstellt. Beispiele hierfür sind unter anderem der T-Test, der Chi-Quadrat-Test und der Kruskal-Wallis-Test.

Welche genau berechnet werden soll, hängt von der Frage ab, die Sie stellen, der Struktur Ihrer Daten und der Verteilung Ihrer Daten.

Hier ist ein praktisches Spickzettel als Referenz.

Im Koffeinbeispiel könnte ein geeigneter Test ein T-Test mit zwei Proben sein.

Sie erhalten eine einzige Teststatistik aus Ihren Daten. Sie müssen dieses Ergebnis nur noch interpretieren, um festzustellen, ob es die Nullhypothese unterstützt oder ablehnt.

Hier kommen P-Werte ins Spiel.

Wie unwahrscheinlich ist diese Statistik?

Denken Sie daran, dass Sie eine Teststatistik berechnet haben, die einige Merkmale Ihrer Daten darstellt. Sie möchten verstehen, ob die Nullhypothese unterstützt oder abgelehnt wird.

Der Ansatz besteht darin, anzunehmen, dass die Nullhypothese wahr ist. Angenommen, es gibt keine signifikanten Beziehungen zwischen den Variablen, an denen Sie interessiert sind.

Schauen Sie sich dann die Daten an, die Sie gesammelt haben. Wie wahrscheinlich wäre Ihre Teststatistik, wenn die Nullhypothese wirklich wahr ist?

Lassen Sie uns auf das Beispiel der Koffeinaufnahme von früher zurückgreifen.

  • Angenommen, die Produktivität wurde gleichmäßig zwischen den Entwicklern aufgeteilt, unabhängig davon, ob sie Koffein tranken oder nicht (Grafik A). Dieses Ergebnis würde wahrscheinlich zufällig auftreten, wenn die Nullhypothese wahr wäre.
  • Nehmen wir jedoch an, dass Entwickler, die Koffein tranken, fast die höchste Produktivität erzielten (Grafik B). Dies ist ein „extremeres“ Ergebnis und würde wahrscheinlich nicht zufällig auftreten, wenn die Nullhypothese wahr wäre.

Aber wie "extrem" muss ein Ergebnis sein, bevor es als zu unwahrscheinlich angesehen wird, die Nullhypothese zu stützen?

Mit diesem P-Wert können Sie schätzen. Es gibt eine numerische Antwort auf die Frage: "Wenn die Nullhypothese wahr ist, wie hoch ist die Wahrscheinlichkeit, dass ein Ergebnis so extrem oder extremer ist?"

P-Werte sind Wahrscheinlichkeiten und liegen daher immer zwischen 0 und 1.

  • Ein hoher P-Wert zeigt an, dass die beobachteten Ergebnisse unter der Nullhypothese wahrscheinlich zufällig auftreten .
  • Ein niedriger P-Wert zeigt an, dass die Ergebnisse unter der Nullhypothese weniger zufällig auftreten .

Normalerweise wird ein Schwellenwert gewählt, um die statistische Signifikanz zu bestimmen. Diese Schwelle wird oft als α bezeichnet.

Wenn der P-Wert unter dem Schwellenwert liegt , sind Ihre Ergebnisse " statistisch signifikant ". Dies bedeutet, dass Sie die Nullhypothese ablehnen (und die Alternativhypothese akzeptieren) können.

Es gibt keine einheitliche Schwelle, die für alle Anwendungen geeignet ist. Normalerweise wird ein beliebiger Schwellenwert verwendet, der für den Kontext geeignet ist.

In Bereichen wie Ökologie und Evolution ist es beispielsweise schwierig, die experimentellen Bedingungen zu kontrollieren, da viele Faktoren das Ergebnis beeinflussen können. Es kann auch schwierig sein, sehr große Probengrößen zu sammeln. In diesen Feldern wird häufig ein Schwellenwert von 0,05 verwendet.

In anderen Kontexten wie Physik und Ingenieurwesen ist ein Schwellenwert von 0,01 oder noch niedriger angemessener.

Chi-Quadrat-Beispiel

In diesem Beispiel gibt es zwei (fiktive) Variablen: Region und Mitgliedschaft in einer politischen Partei. Es verwendet den Chi-Quadrat-Test, um festzustellen, ob ein Zusammenhang zwischen der Region und der Mitgliedschaft in einer politischen Partei besteht.

Sie können die Anzahl der Mitglieder für jede Partei ändern.

  • Nullhypothese: "Es gibt keine signifikante Beziehung zwischen der Region und der Mitgliedschaft in einer politischen Partei."
  • Alternative Hypothese: "Es gibt eine signifikante Beziehung zwischen der Region und der Mitgliedschaft in einer politischen Partei."

Klicken Sie auf die Schaltfläche "Erneut ausführen", um verschiedene Szenarien auszuprobieren.

Häufige Missverständnisse und wie man sie vermeidet

Es gibt mehrere Fehler, die selbst erfahrene Praktiker häufig bei der Verwendung von P-Werten und beim Testen von Hypothesen machen. Dieser Abschnitt soll diese aufklären.

Die Nullhypothese ist uninteressant - wenn die Daten gut sind und die Analyse richtig durchgeführt wird, ist sie eine gültige Schlussfolgerung für sich.

Eine Frage, die es wert ist, beantwortet zu werden, sollte eine interessante Antwort haben - unabhängig vom Ergebnis.

P-Wert ist die Wahrscheinlichkeit, dass die Nullhypothese wahr ist - ein P-Wert repräsentiert "die Wahrscheinlichkeit der Ergebnisse, wenn die Nullhypothese wahr ist". Dies ist nicht dasselbe wie "die Wahrscheinlichkeit, dass die Nullhypothese angesichts der Ergebnisse wahr ist".

P (Daten | Hypothese) ≠ P (Hypothese | Daten)

Dies bedeutet, dass ein niedriger P-Wert Ihnen sagt: "Wenn die Nullhypothese wahr ist, sind diese Ergebnisse unwahrscheinlich." Es ist nicht Sie sagen: „Wenn diese Ergebnisse wahr sind, die Nullhypothese unwahrscheinlich ist“.

Sie können denselben Signifikanzschwellenwert für mehrere Vergleiche verwenden - beachten Sie die Definition des P-Werts. Es ist die Wahrscheinlichkeit, eine bestimmte Teststatistik nur zufällig zu beobachten.

Wenn Sie einen Schwellenwert von α = 0,05 (oder 1 zu 20) verwenden und beispielsweise 20 Statistik-Tests durchführen, können Sie allein durch Zufall einen niedrigen P-Wert erwarten.

Sie sollten einen niedrigeren Schwellenwert verwenden, wenn Sie mehrere Vergleiche durchführen. Es gibt Korrekturmethoden, mit denen Sie berechnen können, wie viel niedriger der Schwellenwert sein sollte.

Die Signifikanzschwelle bedeutet überhaupt nichts - sie ist völlig willkürlich. 0,05 ist nur eine Konvention. Der Unterschied zwischen p = 0,049 und p = 0,051 ist so ziemlich der gleiche wie zwischen p = 0,039 und p = 0,041.

Dies ist eine der größten Schwächen beim Testen von Hypothesen auf diese Weise. Es zwingt Sie, eine Linie in den Sand zu ziehen, obwohl keine Linie leicht gezogen werden kann.

Berücksichtigen Sie daher immer Signifikanzschwellen für das, was sie sind - völlig willkürlich.

Statistische Signifikanz bedeutet, dass der Zufall keine Rolle spielt - weit davon entfernt. Oft gibt es viele Ursachen für ein bestimmtes Ergebnis. Einige werden zufällig sein, andere weniger.

✅ Das Finden einer nicht zufälligen Ursache bedeutet nicht, dass alle Unterschiede zwischen Ihren Variablen erklärt werden. Es ist wichtig, die statistische Signifikanz nicht mit der "Effektgröße" zu verwechseln.

P-Werte sind die einzige Möglichkeit, die statistische Signifikanz zu bestimmen - es gibt andere Ansätze, die manchmal besser sind.

✅ Berücksichtigen Sie neben dem klassischen Testen von Hypothesen auch andere Ansätze - beispielsweise die Verwendung von Bayes-Faktoren oder das falsch positive Risiko.