Lesen einer Regressionstabelle

Was ist Regression?

Regression ist einer der wichtigsten und am häufigsten verwendeten Datenanalyseprozesse. Einfach ausgedrückt handelt es sich um eine statistische Methode, die die Stärke der Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen erklärt.

Eine abhängige Variable kann eine Variable oder ein Feld sein, das Sie vorhersagen oder verstehen möchten. Eine unabhängige Variable können die Felder oder Datenpunkte sein, von denen Sie glauben, dass sie sich auf die abhängige Variable auswirken.

Dabei werden einige wichtige Fragen beantwortet -

  • Welche Variablen sind wichtig?
  • Inwieweit sind diese Variablen von Bedeutung?
  • Wie sicher sind wir in Bezug auf diese Variablen?

Nehmen wir ein Beispiel ...

Um die Zahlen in der Regressionstabelle besser zu erklären, hielt ich es für nützlich, einen Beispieldatensatz zu verwenden und die Zahlen und ihre Bedeutung durchzugehen.

Ich verwende einen kleinen Datensatz, der GRE (ein Test, den Studenten für die Zulassung an Graduiertenschulen in den USA in Betracht ziehen) mit 500 Studenten und ihrer Chance auf Zulassung an einer Universität enthält.

Denn chance of admittancehängt davon ab GRE score, chance of admittanceist die abhängige Variable und GRE scoreist die unabhängige Variable.

Regressionsgerade

Wenn Sie eine gerade Linie zeichnen, die die Beziehung zwischen den GRE-Werten der Schüler und ihren Zulassungschancen am besten beschreibt, erhalten Sie die lineare Regressionslinie . Dies wird in verschiedenen BI-Tools als Trendlinie bezeichnet . Die Grundidee beim Zeichnen dieser Linie besteht darin, den Abstand zwischen den Datenpunkten an einer bestimmten x-Koordinate und der y-Koordinate, durch die die Regressionslinie verläuft, zu minimieren.

Die Regressionslinie erleichtert es uns, die Beziehung darzustellen. Es basiert auf einer mathematischen Gleichung, die den x-Koeffizienten und den y-Achsenabschnitt verknüpft.

Der Y- Achsenabschnitt ist der Punkt, an dem die Linie die y-Achse bei x = 0 schneidet. Dies ist auch der Wert, den das Modell annehmen oder vorhersagen würde, wenn x 0 ist.

Koeffizienten geben die Auswirkung oder das Gewicht einer Variablen auf das gesamte Modell an. Mit anderen Worten, es gibt den Änderungsbetrag in der abhängigen Variablen für eine Einheitsänderung in der unabhängigen Variablen an.

Berechnung der Regressionsgeradengleichung

Um den y-Achsenabschnitt des Modells herauszufinden, verlängern wir die Regressionslinie weit genug, bis sie die y-Achse bei x = 0 schneidet. Dies ist unser y-Achsenabschnitt und liegt bei -2,5. Die Zahl ist für den Datensatz, an dem wir arbeiten, möglicherweise nicht wirklich sinnvoll, soll jedoch nur die Berechnung des y-Achsenabschnitts anzeigen.

Der Koeffizient für dieses Modell ist nur die Steigung der Regressionslinie und kann berechnet werden, indem die Änderung der Admittanz über die Änderung der GRE-Scores ermittelt wird.

Im obigen Beispiel wäre der Koeffizient nur

m = (y2-y1) / (x2-x1)

Und in diesem Fall wäre es nahe an 0,01.

Die Formel y = m * x + b hilft uns, die mathematische Gleichung unserer Regressionslinie zu berechnen. Durch Ersetzen der Werte für y-Achsenabschnitt und Steigung, die wir durch Erweitern der Regressionslinie erhalten haben, können wir die Gleichung formulieren -

y = 0,01x - 2,48

-2,48 ist ein genauerer y-Achsenabschnitt-Wert, den ich aus der Regressionstabelle erhalten habe, wie später in diesem Beitrag gezeigt.

Mit dieser Gleichung können wir die Eintrittswahrscheinlichkeit eines Schülers vorhersagen und vorhersagen, wenn seine GRE-Punktzahl bekannt ist.

Nachdem wir die Grundlagen kennen, können wir eine Regressionstabelle lesen und interpretieren.

Lesen einer Regressionstabelle

Die Regressionstabelle kann grob in drei Komponenten unterteilt werden :

  • Varianzanalyse (ANOVA): Bietet die Analyse der Varianz im Modell, wie der Name schon sagt.
  • Regressionsstatistik: Geben Sie numerische Informationen zur Variation an und wie gut das Modell die Variation für die angegebenen Daten / Beobachtungen erklärt.
  • Restleistung: Liefert den vom Modell vorhergesagten Wert und die Differenz zwischen dem tatsächlich beobachteten Wert der abhängigen Variablen und ihrem vom Regressionsmodell vorhergesagten Wert für jeden Datenpunkt.

Varianzanalyse (ANOVA)

Freiheitsgrade (df)

Regression df ist die Anzahl unabhängiger Variablen in unserem Regressionsmodell. Da wir in diesem Beispiel nur GRE-Werte berücksichtigen, ist dies 1.

Der verbleibende df ist die Gesamtzahl der Beobachtungen (Zeilen) des Datensatzes, subtrahiert von der Anzahl der zu schätzenden Variablen. In diesem Beispiel werden sowohl der GRE-Bewertungskoeffizient als auch die Konstante geschätzt.

Rest df = 500 - 2 = 498

Total df - ist die Summe aus Regression und verbleibenden Freiheitsgraden, die der Größe des Datensatzes minus 1 entspricht.

Summe der Quadrate (SS)

Die Regression SS ist die Gesamtvariation der abhängigen Variablen, die durch das Regressionsmodell erklärt wird. Dies ist die Summe des Quadrats der Differenz zwischen dem vorhergesagten Wert und dem Mittelwert des Werts aller Datenpunkte.

∑ (ŷ - ӯ) ²

Aus der ANOVA-Tabelle ergibt sich eine Regressions-SS von 6,5 und eine Gesamt-SS von 9,9. Dies bedeutet, dass das Regressionsmodell etwa 6,5 ​​/ 9,9 (etwa 65%) der gesamten Variabilität im Datensatz erklärt.

Rest-SS - ist die Gesamtvariation der abhängigen Variablen, die vom Regressionsmodell nicht erklärt wird. Es wird auch als Fehlersumme der Quadrate bezeichnet und ist die Summe des Quadrats der Differenz zwischen den tatsächlichen und vorhergesagten Werten aller Datenpunkte.

∑ (y - ŷ) ²

Aus der ANOVA-Tabelle ergibt sich eine Rest-SS von etwa 3,4. Je kleiner der Fehler ist, desto besser erklärt das Regressionsmodell im Allgemeinen die Variation im Datensatz. Daher möchten wir diesen Fehler normalerweise minimieren.

Gesamt-SS - ist die Summe aus Regression und Rest-SS oder um wie viel die Wahrscheinlichkeit einer Zulassung variieren würde, wenn die GRE-Werte NICHT berücksichtigt würden.

Mittlere quadratische Fehler (MS) - sind der Mittelwert aus der Summe der Quadrate oder der Summe der Quadrate geteilt durch die Freiheitsgrade für Regression und Residuen.

Regression MS = ∑ (ŷ - ӯ) ² / Reg. dfResidual MS = ∑ (y - ŷ) ² / Res. df

F - wird verwendet, um die Hypothese zu testen, dass die Steigung der unabhängigen Variablen Null ist. Mathematisch kann es auch berechnet werden als

F = Regressions-MS / Rest-MS

Dies wird ansonsten berechnet, indem die F-Statistik mit einer F-Verteilung mit der Regression df in Zählergraden und dem Rest df in Nennergraden verglichen wird.

Die Signifikanz F - ist nichts anderes als der p-Wert für die Nullhypothese, dass der Koeffizient der unabhängigen Variablen Null ist, und wie bei jedem p-Wert zeigt ein niedriger p-Wert an, dass eine signifikante Beziehung zwischen abhängigen und unabhängigen Variablen besteht.

Standardfehler - liefert die geschätzte Standardabweichung der Koeffizientenverteilung. Dies ist der Betrag, um den der Koeffizient in verschiedenen Fällen variiert. Ein Koeffizient, der viel größer als sein Standardfehler ist, impliziert eine Wahrscheinlichkeit, dass der Koeffizient nicht 0 ist.

t-Stat - ist die t-Statistik oder der t-Wert des Tests und sein Wert ist gleich dem Koeffizienten geteilt durch den Standardfehler.

t-Stat = Koeffizienten / Standardfehler

Je größer der Koeffizient in Bezug auf den Standardfehler ist, desto größer ist der t-Stat und desto höher ist die Wahrscheinlichkeit, dass der Koeffizient von 0 entfernt ist.

p-Wert - Die t-Statistik wird mit der t-Verteilung verglichen, um den p-Wert zu bestimmen. Wir betrachten normalerweise nur den p-Wert der unabhängigen Variablen, der die Wahrscheinlichkeit liefert, eine Stichprobe zu erhalten, die der zur Ableitung der Regressionsgleichung verwendeten nahe kommt, und überprüfen, ob die Steigung der Regressionslinie tatsächlich Null ist oder der Koeffizient nahe an der liegt Koeffizient erhalten.

Ein p-Wert unter 0,05 zeigt eine 95% ige Sicherheit an, dass die Steigung der Regressionslinie nicht Null ist, und daher besteht eine signifikante lineare Beziehung zwischen den abhängigen und unabhängigen Variablen.

Ein p-Wert größer als 0,05 zeigt an, dass die Steigung der Regressionslinie Null sein kann und dass es bei einem Konfidenzniveau von 95% nicht genügend Beweise dafür gibt, dass eine signifikante lineare Beziehung zwischen den abhängigen und unabhängigen Variablen besteht.

Da der p-Wert des unabhängigen variablen GRE-Scores sehr nahe bei 0 liegt, können wir äußerst sicher sein, dass zwischen den GRE-Scores und der Wahrscheinlichkeit der Zulassung eine signifikante lineare Beziehung besteht.

Untere und obere 95% - Da wir meistens eine Datenstichprobe verwenden, um die Regressionslinie und ihre Koeffizienten zu schätzen, sind sie meistens eine Annäherung an die wahren Koeffizienten und wiederum an die wahre Regressionslinie. Die unteren und oberen 95% -Grenzen geben das 95. Konfidenzintervall der unteren und oberen Grenzen für jeden Koeffizienten an.

Da das 95% -Konfidenzintervall für GRE-Scores 0,009 und 0,01 beträgt, enthalten die Grenzen keine Null. Daher können wir zu 95% sicher sein, dass eine signifikante lineare Beziehung zwischen GRE-Scores und der Wahrscheinlichkeit der Zulassung besteht.

Bitte beachten Sie, dass ein Konfidenzniveau von 95% weit verbreitet ist, jedoch ein anderes Niveau als 95% möglich ist und während der Regressionsanalyse festgelegt werden kann.

Regressionsstatistik

R² (R-Quadrat) - repräsentiert die Leistung eines Modells. Es zeigt das Ausmaß der Variation in der abhängigen Variablen, die die unabhängige Variable erklärt, und liegt immer zwischen den Werten 0 und 1. Mit zunehmendem R² wird mehr Variation in den Daten durch das Modell erklärt und das Modell erhält eine bessere Vorhersage. Ein niedriger R² würde anzeigen, dass das Modell nicht gut zu den Daten passt und dass eine unabhängige Variable die Variation in der abhängigen Variablen nicht gut erklärt.

R² = Regressionssumme der Quadrate / Gesamtsumme der Quadrate

Das R-Quadrat kann jedoch nicht bestimmen, ob die Koeffizientenschätzungen und -vorhersagen verzerrt sind. Aus diesem Grund müssen Sie die Restdiagramme bewerten, die später in diesem Artikel erläutert werden.

Das R-Quadrat zeigt auch nicht an, ob ein Regressionsmodell angemessen ist. Sie können einen niedrigen R-Quadrat-Wert für ein gutes Modell oder einen hohen R-Quadrat-Wert für ein Modell haben, das nicht zu den Daten passt.

R² beträgt in diesem Fall 65%, was bedeutet, dass die GRE-Werte 65% der Variation der Eintrittswahrscheinlichkeit erklären können.

Angepasstes R² - ist R² multipliziert mit einem Einstellfaktor. Dies wird verwendet, wenn verschiedene Regressionsmodelle mit verschiedenen unabhängigen Variablen verglichen werden. Diese Zahl ist nützlich, wenn Sie in mehreren Regressionsmodellen die richtigen unabhängigen Variablen auswählen.

Multiple R - ist die positive Quadratwurzel von R²

Standardfehler - unterscheidet sich vom Standardfehler der Koeffizienten. Dies ist die geschätzte Standardabweichung des Fehlers der Regressionsgleichung und ein gutes Maß für die Genauigkeit der Regressionslinie. Es ist die Quadratwurzel der verbleibenden mittleren quadratischen Fehler.

Std. Fehler = √ (Res.MS)

Restleistung

Residuen sind die Differenz zwischen dem tatsächlichen Wert und dem vorhergesagten Wert des Regressionsmodells, und die Residuenausgabe ist der vorhergesagte Wert der abhängigen Variablen durch das Regressionsmodell und das Residuum für jeden Datenpunkt.

Und wie der Name schon sagt, ist ein Residuendiagramm ein Streudiagramm zwischen dem Residuum und der unabhängigen Variablen, in diesem Fall der GRE-Score jedes Schülers.

Ein Restdiagramm ist wichtig, um Dinge wie Heteroskedastizität , Nichtlinearität und Ausreißer zu erkennen . Der Prozess ihrer Erkennung wird in diesem Artikel nicht behandelt. Die Tatsache, dass in der Restdarstellung unseres Beispiels zufällig gestreute Daten vorliegen, hilft uns jedoch festzustellen, dass die Beziehung zwischen den Variablen in diesem Modell linear ist.

Absicht

In diesem Artikel wird nicht versucht, ein funktionierendes Regressionsmodell zu erstellen, sondern bei Bedarf anhand eines Beispieldatensatzes in einer Regressionstabelle eine exemplarische Darstellung aller Regressionsvariablen und ihrer Bedeutung bereitzustellen.

Obwohl dieser Artikel eine Erklärung mit einer linearen Regression für eine einzelne Variable als Beispiel enthält, beachten Sie bitte, dass einige dieser Variablen in Fällen mit mehreren Variablen oder anderen Situationen eine größere Bedeutung haben können.

Verweise

  • Zulassungsdatensatz für Absolventen
  • 10 Dinge zum Lesen einer Regressionstabelle
  • Eine Auffrischung zur Regressionsanalyse