
Comment vérifier la condition de multicolinéarité pour le modèle de régression linéaire dans R et SPSS ?
Définition
La multicolinéarité est une situation dans laquelle il existe une forte corrélation entre les variables indépendantes dans un modèle statistique. Cela peut se produire dans un modèle de régression linéaire lorsque plusieurs variables indépendantes sont corrélées entre elles et qu'il y a donc une sorte de redondance dans les données.
Le problème de la multicolinéarité est qu'elle affecte la précision des estimations des coefficients de régression et peut rendre les estimations instables. Elle peut également rendre ininterprétables les valeurs p utilisées pour déterminer la significativité des coefficients de régression.
Il existe plusieurs possibilités de vérifier la condition de multicolinéarité pour un modèle de régression linéaire dans R. Une possibilité consiste à examiner la matrice de corrélation des variables indépendantes. Si la corrélation entre deux ou plusieurs variables indépendantes est élevée (normalement, une valeur de 0,8 ou plus est considérée comme critique), il existe une possibilité de multicolinéarité.
Une autre possibilité consiste à calculer le facteur d'influence de la variation (VIF). Le VIF indique dans quelle mesure l'estimation d'un coefficient de régression est influencée par les estimations des autres coefficients de régression. Une valeur VIF de 1 signifie qu'il n'y a pas de multicolinéarité, tandis qu'une valeur supérieure à 1 (généralement, une valeur de 5 ou plus est considérée comme critique) indique une multicolinéarité.
Exemple en R
Dans R, la corrélation entre deux ou plusieurs variables peut être vérifiée par exemple avec la fonction cor(). Voici un exemple avec le jeu de données "swiss" dans R, où nous comparons la corrélation bivariée des quatre variables Fertility, Agriculture, Examination et Education. Nous constatons qu'aucune des corrélations n'est supérieure à 0,8 ou inférieure à -0,8.

Pour obtenir les valeurs VIF des variables indépendantes, nous pouvons utiliser dans R la fonction Vif() du paquet car. Nous voyons dans l'exemple ci-dessous qu'aucune des valeurs n'est supérieure à 5. Il n'y a donc pas de problème de multicolinéarité dans notre modèle linéaire.

Exemple dans SPSS
Pour faire un tableau de corrélation dans SPSS, les étapes suivantes sont nécessaires :
- Clique sur Analyser
- Aller à Corrélation et bivariation
- Sélectionne tes variables indépendantes et clique sur ok.
- Vérifie qu'aucune des corrélations n'est particulièrement élevée (plus de 0,8 ou moins de -0,8).
Pour afficher les valeurs Vif dans SPSS pour un modèle de régression linéaire, on peut sélectionner l'option lorsqu'on estime un modèle de régression linéaire.
- Clique sur Analyser
- Va sur Régression et linéaire
- Clique sur le bouton "Statistiques
- Cocher la case Diagnostic de colinéarité
- Clique sur ok et choisis les variables pour ton modèle de régression
- En sortie, on voit maintenant les valeurs Vif pour chaque variable indépendante dans la dernière colonne du tableau de régression.

Il existe plusieurs façons de remédier à la multicolinéarité, par exemple en sélectionnant les variables à inclure dans le modèle ou en créant de nouvelles variables en reliant les variables existantes. Il peut également être nécessaire de réviser le modèle et d'utiliser des approches alternatives. Il est important d'identifier la multicolinéarité et d'y remédier avant d'interpréter les résultats et de tirer des conclusions.