Comparer deux groupes ou plus dans une thèse de médecine : quel test statistique choisir ?
Une grille de décision pour choisir un test statistique lors d’une comparaison de deux groupes ou plus dans une thèse de médecine.
Comparer deux groupes ou plus est l’une des situations les plus fréquentes dans une thèse de médecine : traitement A contre traitement B, exposés contre non exposés, complications selon plusieurs services, score clinique selon plusieurs niveaux de sévérité.
Le piège est de choisir un test statistique directement depuis le nom du logiciel. En réalité, le choix du test dépend d’abord de la question, du type de variable, du nombre de groupes, du caractère indépendant ou apparié des données, des effectifs et de la distribution des valeurs.
Cet article donne une grille de décision pratique pour les comparaisons de groupes dans une thèse. Il s’inscrit dans la section statistiques du guide complet de la thèse de médecine.
Avant de choisir un test : quatre questions
Avant de parler de Chi2, Fisher, Student ou ANOVA, posez quatre questions.
| Question | Pourquoi elle compte |
|---|---|
| Combien de groupes comparez-vous ? | Deux groupes ne se traitent pas comme trois groupes ou plus. |
| La variable comparée est-elle qualitative ou quantitative ? | Une proportion et une moyenne ne se comparent pas avec les mêmes tests. |
| Les groupes sont-ils indépendants ou appariés ? | Une mesure avant/après chez les mêmes patients n’est pas une comparaison indépendante. |
| Le test répond-il à la question principale ? | Comparer dix variables descriptives ne remplace pas l’analyse du critère principal. |
Si vos données sont appariées, par exemple avant/après chez les mêmes patients ou cas/témoins appariés, lisez plutôt l’article sur les données appariées. Les tests présentés ici concernent surtout les groupes indépendants.
La grille rapide de choix
Cette table donne une orientation de départ. Elle ne remplace pas un plan d’analyse statistique.
| Situation | Test souvent discuté |
|---|---|
| Deux groupes, variable qualitative | Chi2 ou Fisher |
| Deux groupes, variable quantitative approximativement symétrique | Welch ou Student |
| Deux groupes, variable quantitative asymétrique ou avec valeurs extrêmes | Mann-Whitney/Wilcoxon rank-sum |
| Plus de deux groupes, variable qualitative | Chi2, parfois Fisher exact étendu |
| Plus de deux groupes, variable quantitative approximativement symétrique | ANOVA |
| Plus de deux groupes, variable quantitative asymétrique | Kruskal-Wallis |
| Groupes ordonnés | Test de tendance, modèle ordinal ou avis statistique selon le cas |
Dans TablR ou dans un autre logiciel, l’outil peut vous guider. Mais il reste important de comprendre ce que vous comparez.
Comparer deux groupes indépendants
Si la variable est qualitative
Une variable qualitative décrit une catégorie : sexe, présence d’une complication, groupe de traitement, classe de sévérité, réponse oui/non.
Exemple : vous comparez la fréquence d’une complication entre deux groupes.
| Groupe | Complication | Pas de complication |
|---|---|---|
| Traitement A | 12 | 88 |
| Traitement B | 25 | 75 |
Les tests souvent discutés sont :
- Chi2 si les effectifs attendus sont suffisants ;
- Fisher exact si les effectifs sont faibles, surtout pour un tableau 2x2.
Le point important : la règle ne repose pas seulement sur les effectifs observés dans les cases, mais sur les effectifs attendus sous l’hypothèse d’absence d’association. Beaucoup de logiciels calculent ou gèrent ce point automatiquement.
Une formulation prudente dans une thèse :
Les variables qualitatives ont été comparées par test du Chi2 ou test exact de Fisher selon les effectifs attendus.
Si la variable est quantitative
Une variable quantitative est une mesure numérique : âge, score, délai, durée d’hospitalisation, valeur biologique.
Exemple : vous comparez l’âge entre deux groupes.
| Groupe | n | Résumé |
|---|---|---|
| Traitement A | 80 | moyenne 64 ans, écart-type 12 |
| Traitement B | 77 | moyenne 69 ans, écart-type 15 |
Les tests souvent discutés sont :
- Welch ou Student pour comparer des moyennes ;
- Mann-Whitney si les distributions sont très asymétriques, ordinales ou marquées par des valeurs extrêmes.
En pratique, le test de Welch est souvent préférable au Student strict, car il ne suppose pas l’égalité des variances entre groupes. Beaucoup d’étudiants disent “test de Student” par habitude, mais la version Welch est plus robuste dans de nombreuses situations.
Comparer plus de deux groupes
Comparer trois groupes ou plus ajoute deux difficultés :
- le nombre de comparaisons possibles augmente vite ;
- un test global significatif ne dit pas automatiquement quels groupes diffèrent.
Exemple : vous comparez trois stratégies de prise en charge A, B et C.
Variable qualitative : Chi2 ou Fisher
Pour une variable qualitative, on utilise souvent un test du Chi2 sur l’ensemble du tableau.
| Groupe | Guérison | Pas de guérison |
|---|---|---|
| A | 35 | 15 |
| B | 28 | 22 |
| C | 42 | 8 |
Une p-value significative indique qu’il existe une association entre le groupe et la guérison. Elle ne dit pas à elle seule si la différence vient de A vs B, A vs C, B vs C, ou d’un autre contraste.
Si les effectifs sont faibles, un test exact peut être discuté, mais son utilisation et son interprétation deviennent plus techniques lorsque le tableau dépasse 2x2.
Variable quantitative : ANOVA ou Kruskal-Wallis
Pour une variable quantitative comparée entre plus de deux groupes, on discute souvent :
- ANOVA si l’objectif est de comparer des moyennes dans des conditions compatibles ;
- Kruskal-Wallis si les distributions sont très asymétriques ou si une approche par rangs est plus adaptée.
Comme pour le Chi2, un résultat global significatif indique qu’au moins un groupe diffère. Il faut ensuite discuter les comparaisons post-hoc si vous voulez identifier les différences entre groupes.
Comparaisons multiples : attention au risque alpha
Chaque test statistique comporte un risque de conclure à tort à une différence. Si vous multipliez les tests, ce risque augmente.
Exemple : vous comparez 5 variables entre 3 groupes. Vous pouvez vite obtenir :
- 5 tests globaux ;
- puis 3 comparaisons deux à deux pour chaque variable ;
- soit 20 tests au total.
Plus vous testez, plus vous augmentez la probabilité d’obtenir au moins une p-value significative par hasard.
Cela ne veut pas dire qu’il est interdit de faire des comparaisons post-hoc. Cela veut dire qu’elles doivent être prévues, justifiées et parfois corrigées pour comparaisons multiples selon le contexte.
Dans une thèse, formulez clairement :
- quelle comparaison est principale ;
- quelles comparaisons sont secondaires ;
- quelles analyses sont exploratoires ;
- si une correction des comparaisons multiples a été appliquée.
Peut-on fusionner des groupes ?
Fusionner des groupes peut être pertinent, mais seulement si la fusion a un sens clinique ou méthodologique.
Exemple acceptable : regrouper “tabagisme actif” et “tabagisme sevré” en “antécédent de tabagisme” si cette définition était prévue dans le protocole et répond à la question.
Exemple risqué : fusionner deux groupes uniquement parce que leurs résultats semblent proches après avoir regardé les données.
La bonne règle :
- fusionner si le regroupement est prévu ou justifié avant l’analyse ;
- éviter les fusions opportunistes après lecture des résultats ;
- documenter clairement la variable finale dans le protocole et le manuscrit.
Si vous avez trop de groupes et peu de sujets, le problème est souvent en amont : la variable a été trop finement codée pour l’effectif disponible.
Groupes ordonnés : ne pas aller trop vite
Certains groupes ont un ordre naturel : stade 1, 2, 3, 4 ; score léger, modéré, sévère ; dose faible, moyenne, forte.
Ce caractère ordinal est informatif, mais il ne signifie pas automatiquement que vous pouvez traiter la variable comme quantitative.
Transformer un score ordinal en nombre et réaliser une régression linéaire peut être acceptable dans certains contextes, mais ce n’est pas une règle générale. Il faut que l’écart entre les niveaux ait un sens approximativement régulier, ce qui est rarement évident.
Options à discuter selon le projet :
- test de tendance ;
- modèle ordinal ;
- régression adaptée au type de variable ;
- comparaison globale des groupes ;
- avis statistique si le critère est central.
Évitez aussi de dichotomiser une variable quantitative, par exemple âge supérieur ou inférieur à 30 ans, uniquement pour simplifier. Cela fait perdre de l’information et de la puissance, sauf si le seuil est cliniquement justifié et prévu à l’avance.
Quand demander un avis statistique ?
Demandez un avis si :
- le critère principal repose sur une comparaison de groupes ;
- vous avez plus de deux groupes ;
- les effectifs sont faibles ;
- les données sont appariées ou répétées ;
- vous devez ajuster sur des facteurs de confusion ;
- vous prévoyez de nombreux tests ;
- les groupes sont très déséquilibrés ;
- vous hésitez à fusionner ou dichotomiser des variables.
L’article faire ses statistiques soi-même ou demander de l’aide détaille cette décision. Idéalement, ces choix doivent être discutés dès le protocole de thèse, avant de commencer le recueil.
Checklist avant de lancer les comparaisons
Avant de cliquer sur un test, vérifiez :
- le critère de jugement principal est clairement défini ;
- les groupes sont indépendants ou appariés ;
- la variable comparée est qualitative, quantitative ou ordinale ;
- le nombre de groupes est justifié ;
- les effectifs par groupe sont suffisants ;
- les valeurs manquantes sont identifiées ;
- les comparaisons principales sont distinguées des exploratoires ;
- les tests post-hoc sont prévus si nécessaire ;
- vous savez comment présenter le résultat dans le manuscrit.
Pour choisir l’outil pratique, voyez aussi quel logiciel utiliser pour les statistiques d’une thèse.
Questions fréquentes
Quel test utiliser pour comparer deux groupes ?
Cela dépend surtout du type de variable comparée. Pour une variable qualitative, on discute Chi2 ou Fisher. Pour une variable quantitative, on discute plutôt Welch/Student ou Mann-Whitney selon la distribution, les effectifs et les valeurs extrêmes.
Quand utiliser le test du Chi2 plutôt que Fisher ?
Le Chi2 est adapté quand les effectifs attendus sont suffisants. Fisher est souvent privilégié pour les petits effectifs, surtout en tableau 2x2. Le choix ne doit pas reposer uniquement sur les effectifs observés.
Le test de Mann-Whitney compare-t-il les médianes ?
Pas exactement. Le test de Mann-Whitney compare les rangs et les distributions. L’interpréter comme une comparaison de médianes n’est correct que dans des situations particulières.
Peut-on fusionner des groupes pour simplifier l’analyse ?
Oui seulement si la fusion est justifiée cliniquement et idéalement prévue avant l’analyse. Fusionner des groupes après avoir vu les résultats peut introduire un biais.
Que faire si je compare plus de deux groupes ?
On utilise souvent Chi2 ou Fisher pour les variables qualitatives, ANOVA ou Kruskal-Wallis pour les variables quantitatives. Une p-value significative indique qu’au moins un groupe diffère, puis des comparaisons post-hoc peuvent être nécessaires.