Wie überprüft man die Voraussetzung der Multikollinearität für das lineare Regressionsmodell in R und SPSS?
Definition
Multikollinearität ist ein Zustand, bei dem es eine starke Korrelation zwischen den unabhängigen Variablen in einem statistischen Modell gibt. Dies kann in einem linearen Regressionsmodell vorkommen, wenn mehrere unabhängige Variablen miteinander korrelieren und damit eine Art von Redundanz in den Daten vorliegt.
Das Problem bei Multikollinearität ist, dass es die Schätzgenauigkeit der Regressionskoeffizienten beeinträchtigt und dazu führen kann, dass die Schätzungen instabil sind. Es kann auch dazu führen, dass die p-Werte, die verwendet werden, um die Signifikanz der Regressionskoeffizienten zu bestimmen, nicht mehr interpretierbar sind.
Es gibt mehrere Möglichkeiten, die Voraussetzung der Multikollinearität für ein lineares Regressionsmodell in R zu überprüfen. Eine Möglichkeit besteht darin, die Korrelationsmatrix der unabhängigen Variablen zu untersuchen. Wenn die Korrelation zwischen zwei oder mehreren unabhängigen Variablen hoch ist (normalerweise gilt ein Wert von 0,8 oder höher als kritisch), besteht die Möglichkeit einer Multikollinearität.
Eine weitere Möglichkeit besteht darin, den Variationsinflussfaktor (VIF) zu berechnen. Der VIF gibt an, wie sehr die Schätzung einer Regressionskoeffizienten durch die Schätzungen der anderen Regressionskoeffizienten beeinflusst wird. Ein VIF-Wert von 1 bedeutet, dass es keine Multikollinearität gibt, während ein Wert von höher als 1 (normalerweise wird ein Wert von 5 oder höher als kritisch angesehen) auf eine Multikollinearität hinweist.
Beispiel in R
In R kann die Korrelation zwischen zwei oder mehreren Variablen zum Beispiel mit der cor() Funktion überprüft werden. Hier ist ein Beispiel mit dem “swiss” Datensatz in R, wo wir die bivariaten Korrelation der vier Variablen Fertility, Agriculture, Examination und Education miteinander vergleichen. Wir sehen, dass keine der Korrelationen über 0.8 resp. unter -0.8 sind.
Um die VIF-Werte der unabhängigen Variablen zu erhalten, können wir in R die Vif() Funktion des car Paketes benutzen. Wir sehen im Beispiel unten, dass keine der Werte über 5 sind. In unserem linearen Modell gibt es daher kein Problem der Multikollinearität.
Beispiel in SPSS
Um eine Korrelationstabelle in SPSS zu machen, sind folgende Schritte notwendig:
- Klicke auf Analysieren
- Gehe auf Korrelation und Bivariat
- Wähle deine unabhängigen Variablen aus und klicke auf ok.
- Schaue, ob keine der Korrelationen auffällig hoch sind (über 0.8 resp. unter -0.8).
Um die Vif Werte in SPSS für ein lineares Regressionsmodell anzuzeigen, kann man die Option auswählen, wenn man ein lineares Regressionsmodell schätzt.
- Klicke auf Analysieren
- Gehe auf Regression und Linear
- Klicke auf den Button “Statistiken”
- Klicke das Kästchen Kollineariätsdiagnose an
- Klicke ok und wähle die Variablen für dein Regressionsmodell
- Im Output sieht man nun die Vif Werte für die einzelnen unabhängigen Variablen in der letzten Spalte der Regressionstabelle.
Es gibt mehrere Möglichkeiten, Multikollinearität zu beheben, wie z.B die Auswahl der Variablen, die in das Modell aufgenommen werden, oder die Erstellung von neuen Variablen durch die Verknüpfung von bestehenden Variablen. Es kann auch notwendig sein, das Modell zu überarbeiten und alternative Ansätze zu verwenden. Es ist wichtig, die Multikollinearität zu identifizieren und zu beheben, bevor man die Ergebnisse interpretiert und Schlussfolgerungen zieht.