Regressionskoeffizienten richtig interpretieren
Du musst für deine Arbeit eine Lineare Regression durchführen aber bist dir nicht sicher, wie du Resultate richtig interpretierst? In diesem Beitrag erklären wir dir, wie du die Koeffizienten einer Linearen Regression richtig interpretierst.
Wir gehen davon aus, dass du bereits weisst, wie man eine Lineare Regression durchführt. Falls nicht, helfen wir dir gerne weiter.
Wir verwenden hier den Regressionsoutput von R. Analog dazu kann man die Outputs aber gleich in anderen Datenprogramme wie SPSS oder Stata interpretieren.
In diesem Beitrag betrachten wir zuerst auf den Output einer einfachen Linearen Regression und danach den Output einer multiplen Linearen Regression. Eine einfache Lineare Regression unterscheidet sich von einer multiplen Linearen Regression darin, dass sie nur eine einzige unabhängige Variable enthält. Ein Modell in einer multiplen Linearen Regression besteht aus mehreren unabhängige Variablen.
Für beide Szenarien verwenden wir den Beispieldatensatz “swiss”, welcher in R standardmässig vorhanden ist. Dieser enthält unter anderem Fertilitätsraten und Ausbildungsdaten zu verschiedenen Westschweizer Kantonen im Jahre 1888.
In unserem Beispiel möchten wir herausfinden, wie das Bildungsniveau (unabhängige Variable) mit der Anstellungsrate im Landwirtschaftssektor (abhängige Variable) assoziiert ist. Beide Variablen sind in % angegeben:
X – Education – Unabhängige Variable: Wie viel Prozent der Bevölkerung haben eine Ausbildung höher als die Primärbildung (Education). Wir nennen diese Variable der Einfachheit halber Bildungsniveau.
Y – Agriculture – Abhängige Variable: Wie viel Prozent der Männer arbeiten im Landwirtschaftssektor
Das Bild unten zeigt einen typischen Output einer Regressionsanalyse in R. Der blaue Input ganz oben zeigt den Befehl, den wir in R eingegeben haben. Wir regressieren hier also die Variable Agriculture (abhängige Variable) auf die Variable Education (unabhängige Variable).
Wir haben hier verschiedene Überschriften, wobei wir uns mehrheitlich auf die Coefficients fokussieren:
Call: Hier sieht man nochmals die Regressionsgleichung mit den genutzten Variablen resp. Dataset.
Residuals: Zeigt die Lageparameter der Residuen. Residuen sind die einzelnen Abstände der Beobachtungen zur Regressionsgerade. Für dieses Beispiel interessieren uns die Residuen nicht weiter.
Coefficients: Zeigt den wichtigsten Output des Regressionsmodells:
Variablennamen
Die erste Kolonne im Output gibt die Variablennamen wieder. Hier finden wir auch den Intercept/Achsenabschnitt.
Estimates / Koeffizienten
Die zweite Kolonne gibt die geschätzten Koeffizienten für die jeweiligen Variablen wieder.
Normalerweise ist man vor allem an den Variablenkoeffizienten und weniger am Achsenabschnitt interessiert.
Std. Error
Die dritte Kolonne gibt den Standardfehler des Koeffizienten/Schätzers wieder.
t-Value
Die vierte Kolonne gibt den t-Wert wieder. Der t-Wert sagt uns, wieviele Standardfehler der Koeffizient/Schätzer von 0 weg ist. Den t-Wert finden wir, indem wir den Koeffizienten/Schätzer durch den Standardfehler teilen. Dh. wenn wir die Werte der zweiten Kolonne durch die Werte der dritten Kolonne teilen, erhalten wir die Werte der vierten Kolonne.
Interpration
Der Koeffizient für den Achsenabschnitt ist 67.2432 und der Koeffizient für das Bildungsniveau (Education) beträgt -1.5105. Wenn wir die Regressionsgerade plotten, sehen wir, was die beiden Koeffizienten bedeuten. Der Achsenabschnitt zeigt uns, wo die Regressionsgerade die Y-Achse schneidet. Anders formuliert kann man auch sagen, dass er den Wert von Y (als der abhängigen Variablen) zeigt, wenn X (also die unabhängige Variable) den Wert 0 annimmt. Bei uns hat der Intercept den Wert 67.2432. Der Koeffizient für das Bildungsniveau (Education) zeigt uns die Steigung der roten Regressionsgeraden. In diesem Fall ist diese-1.5105. Diese Steigung sagt uns, um wieviel sich Y verändert, wenn wir X um 1 erhöhen.
Somit können mit folgendem Satz den Zusammenhang beider Variablen beschreiben:
Eine Erhöhung des Bildungsniveaus um 1 Einheit im assoziiert mit einer durchschnittlichen Senkung der Anstellungsgrate in der Landwirtschaft um -1.5105 Einheiten.
Anstelle von “Einheit” sollte man hier auch die Einheit der Variablen nennen. In diesem Falle sind die Einheiten der beiden Variablen in % angegeben, weshalb wir wir als Einheit Prozentpunkte nehmen. Der vollständige Satz würde dann so heissen:
Eine Erhöhung des Bildungsniveaus um 1 Prozentpunkt im assoziiert mit einer durchschnittlichen Senkung der Anstellungsgrate in der Landwirtschaft um -1.5105 Prozentpunkte.
Anmerkung: Wir nehmen hier Prozentpunkte und nicht Prozent, da wir von absoluten Veränderungen sprechen und nicht von relativen.
Beispiele für andere Sätze mit anderen Datensets könnten beispielsweise sein:
Eine Erhöhung des Zigarettenpreises um 1 Franken im assoziiert mit einer durchschnittlichen Senkung der Nachfrage um 5.2 Packungen pro Jahr.
Eine Erhöhung der Lernzeit um 1 Stunde im assoziiert mit einer durchschnittlichen Erhöhung der Testscores um 12.4 Punkte.
In den Sätzen oben gibt es ein paar wichtige Sachen anzumerken:
Wir schreiben “assoziiert”, weil wir eine kausalen Zusammenhang nicht implizieren können.
Wir schreiben “durchschnittlich”, weil wir hier immer von durchschnittlichen Veränderungen sprechen.
Signfikanz der Koeffizienten
Wenn wir die Koeffizienten haben, müssen wir schauen, ob diese signifikant sind. Der Achsenabschnitt ist im Normalfall immer signifikant. Da er uns aber nicht gross interessiert, achten wir uns hier vor allem auf die Signifikanz des Koeffizienten für das Bildungsniveau.
Der einfachste Weg, die Signifikanz eines Koeffizienten zu überprüfen, ist, den p-Wert zu betrachten, den wir in der letzten Kolonne ablesen können. Ein Koeffizient ist signifikant, wenn dessen p-Wert unter einem gängigen Signifikanzlevel α liegt. In der Wissenschaft spricht man oft von drei Signifikanzlevels: α = 0.05 (5%), α = 0.01 (1%), und α = 0.001 (0.1%). Wenn der p-Wert unter einem dieser Niveaus liegt, dann ist er auf dem entsprechenden Level signifikant.
Beispielsweise ist :
- ein p-Wert von 0.023 auf dem 5%-Level signifikant, nicht aber auf dem 1%-Level.
- ein p-Wert von 0.0034 auf dem 1%-Level signifikant, nicht aber auf dem 0.1% Level
- ein p-Wert von 0.0008 auf dem 0.1%-Level signifikant.
In R werden die Signifikanzen oft auch mit Sternen * ganz am Ende einer Zeile wiedergegeben:
- * heisst signifikant auf 5%-Level
- ** heisst signifikant auf 1%-Level
- *** heisst signifikant auf 0.1%-Level
In unserem Beispiel beträgt der p-Wert für den Bildungskoeffizienten p = 1.3e-06. Dies ist die wissenschaftliche Schreibweise und heisst übersetzt:
0.0000013 ist kleiner als 0.001. Somit ist unser Koeffizient signifikant auf dem 0.1% Signifikanzniveau.
Mit all diesen Informationen können wir nun unsere Interpretation des Regressionsoutputs vervollständigen:
Eine Erhöhung des Bildungsniveaus um 1 Prozentpunkt im assoziiert mit einer durchschnittlichen Senkung der Anstellungsgrate in der Landwirtschaft um -1.5105 Prozentpunkte. Dieser Koeffizient ist signifikant auf dem 0.1%-Signifikanzniveau.
Wie verändert sich nun die Interpretation, wenn wir mehrere unabhängige Variablen haben, das heisst, ein multiples Lineares Regressionsmodell schätzen?
Zu diesem Zweck ergänzen wir unser Modell mit einer zusätzlichen unabhängigen Variable namens Catholic, welche den Prozentsatz der katholischen Bevölkerung in einem Kanton angibt.
Wenn wir nun wieder ein Regressionsmodell schätzen, erhalten wir folgenden Output:
Wenn wir nun den Koeffizienten für Education beschreiben möchten, lautet der Satz wie folgt:
Eine Erhöhung des Bildungsniveaus um 1 Prozentpunkt im assoziiert mit einer durchschnittlichen Senkung der Anstellungsgrate in der Landwirtschaft um -1.39786 Prozentpunkte, wenn man für den Anteil an Katholiken in der Bevölkerung kontrolliert. Dieser Koeffizient ist signifikant auf dem 0.1% -Signifikanzniveau.
Alles was wir machen mussten, ist zusätzlich die anderen unabhängigen Variablen zu nennen, die ebenfalls im Modell enthalten sind. Alternativen sind:
Eine Erhöhung des Bildungsniveaus um 1 Prozentpunkt im assoziiert mit einer durchschnittlichen Senkung der Anstellungsgrate in der Landwirtschaft um -1.39786 Prozentpunkte, wenn man den Anteil an Katholiken in der Bevölkerung konstant hält. Dieser Koeffizient ist signifikant auf dem 0.1% -Signifikanzniveau.
Eine Erhöhung des Bildungsniveaus um 1 Prozentpunkt im assoziiert mit einer durchschnittlichen Senkung der Anstellungsgrate in der Landwirtschaft um -1.39786 Prozentpunkte, wenn alle anderen Variablem im Modell konstant hält. Dieser Koeffizient ist signifikant auf dem 0.1% -Signifikanzniveau.
Eine Erhöhung des Bildungsniveaus um 1 Prozentpunkt im assoziiert mit einer durchschnittlichen Senkung der Anstellungsgrate in der Landwirtschaft um -1.39786 Prozentpunkte, ceteris paribus. Dieser Koeffizient ist signifikant auf dem 0.1% -Signifikanzniveau.
Die Version mit ceteris paribus ist verbreitet, jedoch nicht ganz korrekt, da sie faktisch impliziert, dass alles andere konstant gehalten wird, was schlichtweg nicht stimmt. Das einzige, was wir konstant halten, ist die Variable Catholic, da sie unsere einzige Kontrollvariable ist.
Beachte, dass sich bei der Hinzunahme einer weiteren Variablen ins Modell der Koeffizient für Education verändert. warum dies so ist, besprechen wir in einem anderen Blogbeitrag.
Wollten wir den Koeffizienten für Catholic interpretieren, dann wäre dies analog zu oben die Interpretation:
Eine Erhöhung der Anteil an Katholiken in der Bevölkerung 1 Prozentpunkt im assoziiert mit einer durchschnittlichen Erhöhung der Anstellungsgrate in der Landwirtschaft um 0.16884 Prozentpunkte, wenn man für das Bildungsniveau kontrolliert. Dieser Koeffizient ist signifikant auf dem 1% -Signifikanzniveau.
Oftmals werden Variablen logarithmiert, um einen besseren linearen Zusammenhang zwischen abhängigen und unabhängigen Variablen zu modellieren. Wird dies gemacht, ändert sich die Interpretation der Koeffizienten. In einem anderen Beitrag erklären wir, wie man Koeffizienten von logarithmierten Variablen interpretiert.