
Test du khi-carré : un guide complet pour l'utilisation en statistique
Le test du khi-carré (test du χ²) est l'une des méthodes statistiques de base permettant d'analyser s'il existe un lien entre deux variables catégorielles. Ce test est particulièrement utile lorsque vous travaillez avec des fréquences ou des tableaux de contingence et que vous souhaitez vérifier si les différences observées entre les groupes sont dues au hasard ou si elles indiquent un lien réel. Dans cet article de blog, nous allons expliquer les principes de base du test du khi-carré, discuter de ses différents types d'application et les illustrer par un exemple dans R.
Qu'est-ce que le test du khi-carré ?
Le test du khi-carré vérifie si les fréquences observées dans les catégories diffèrent significativement des fréquences attendues. Il existe deux types principaux de test du khi-carré :
- Test d'ajustement du khi-carré (test de Goodness-of-Fit): Ce test vérifie si la distribution d'une seule variable catégorielle correspond à une distribution attendue.
- Test d'indépendance du khi-carré (test of independence): Ce test vérifie s'il existe une association ou un lien entre deux variables qualitatives.
1er test d'ajustement du khi-carré
Le test d'ajustement est utilisé pour tester si les fréquences observées d'une variable catégorielle unique correspondent à une distribution de fréquences attendue. Par exemple, on pourrait examiner si un dé est équitable en comparant la fréquence de chaque résultat après plusieurs lancers avec la distribution uniforme théorique.
exemple :
Supposons que vous lanciez un dé 60 fois et obteniez les résultats suivants :
Nombre d'yeux | Fréquence |
---|---|
1 | 8 |
2 | 10 |
3 | 12 |
4 | 9 |
5 | 11 |
6 | 10 |
Les fréquences attendues seraient de 10 à chaque fois, car avec un dé équitable, chaque résultat devrait avoir une probabilité de ( \frac{1}{6} ).
Le test d'ajustement va maintenant vérifier si les différences entre les fréquences observées et les fréquences attendues sont aléatoires ou significatives.
2. test d'indépendance du khi-carré
Le test d'indépendance est utilisé pour tester si deux variables catégorielles sont indépendantes l'une de l'autre. Un exemple typique serait de savoir si le sexe (masculin/féminin) et la présence d'une maladie (oui/non) sont liés.
exemple :
Imaginons un sondage dans lequel 100 personnes sont interrogées sur leur sexe et leur opinion (aime/n'aime pas) sur un nouveau produit. Le tableau de contingence suivant présente les résultats :
Aime | N'aime pas | Total | |
---|---|---|---|
Mâle | 30 | 20 | 50 |
Femme | 10 | 40 | 50 |
Total | 40 | 60 | 100 |
Le test d'indépendance du khi-carré va maintenant permettre de vérifier si le sexe et l'opinion sur le produit sont statistiquement indépendants.
Réalisation du test du khi-carré dans R
Dans R, le test du khi-carré peut être réalisé facilement. Prenons le deuxième exemple (test d'indépendance) et réalisons le test dans R
# Daten in einer Kontingenztabelle
data <- matrix(c(30, 20, 10, 40), nrow = 2, byrow = TRUE)
colnames(data) <- c("Gefällt", "Gefällt nicht")
rownames(data) <- c("Männlich", "Weiblich")
data
# Durchführung des Chi-Quadrat-Tests
chisq.test(data)
La sortie fournit la valeur du Khi-deux, les degrés de liberté et la valeur p. Si la valeur p est inférieure au niveau de signification (par exemple 0,05), nous pouvons rejeter l'hypothèse nulle et supposer qu'il existe un lien entre les variables.
Interprétation du test du khi-carré
L'hypothèse nulle du test du khi-carré stipule qu'il n'y a pas de différence entre les fréquences observées et attendues (test d'ajustement) ou que les variables sont indépendantes (test d'indépendance).
- Si la valeur p est inférieure au niveau de signification fixé (par exemple 0,05), nous rejetons l'hypothèse nulle. Cela signifie qu'il existe une différence statistiquement significative entre les groupes ou que les variables ne sont pas indépendantes les unes des autres.
- Si la valeur p est supérieure au niveau de signification, nous ne pouvons pas rejeter l'hypothèse nulle, ce qui signifie que les différences sont probablement dues au hasard et qu'il n'y a pas de lien entre les variables.
Hypothèses du test du khi-carré
Il y a quelques hypothèses importantes à prendre en compte dans le test du khi-carré :
- Données catégorielles: Le test s'applique à des données nominales ou ordinales (catégorielles).
- Fréquences attendues: Les fréquences attendues dans chaque cellule du tableau de contingence devraient idéalement être supérieures à 5. Si les fréquences attendues sont trop petites, le test peut être biaisé.
- Indépendance des observations: Les observations dans les différents groupes doivent être indépendantes les unes des autres.
Conclusion
Le test du khi-carré est un outil simple mais puissant pour étudier les corrélations entre des variables catégorielles. Il offre une méthode rapide et efficace pour décider si les différences de fréquence entre les groupes sont dues au hasard ou si elles indiquent une véritable corrélation. En l'utilisant et en l'interprétant correctement, vous pouvez tirer des enseignements précieux de vos données.
Bien que le test du khi-carré soit utile dans de nombreuses situations, il convient de s'assurer que les hypothèses sont satisfaites et, le cas échéant, d'envisager des méthodes alternatives telles que le test de Fisher si les conditions du test du khi-carré ne sont pas remplies.