Comparer deux groupes ou plus : quel test statistique choisir en thèse ?

Une grille de décision pour choisir un test statistique lors d’une comparaison de deux groupes ou plus dans une thèse de médecine.

Comparer deux groupes ou plus est l’une des situations les plus fréquentes dans une thèse de médecine : traitement A contre traitement B, exposés contre non exposés, complications selon plusieurs services, score clinique selon plusieurs niveaux de sévérité. La question pratique est souvent directe : quel test statistique utiliser pour comparer deux groupes, ou plusieurs groupes, sans choisir au hasard ?

Le piège est de choisir un test statistique directement depuis le nom du logiciel. En réalité, le choix du test dépend d’abord de la question, du type de variable, du nombre de groupes, du caractère indépendant ou apparié des données, des effectifs et de la distribution des valeurs.

Cet article donne une grille de décision pratique pour les comparaisons de groupes dans une thèse. Il s’inscrit dans la section statistiques du guide complet de la thèse de médecine.

Si votre question dépasse la comparaison de groupes, utilisez plutôt le hub général : quel test statistique choisir pour une thèse de médecine. Il couvre aussi la description simple, les données appariées, les régressions, l’analyse de survie et les tests diagnostiques.

Avant de choisir un test : quatre questions

Avant de parler de Chi2, Fisher, Student ou ANOVA, posez quatre questions.

Question	Pourquoi elle compte
Combien de groupes comparez-vous ?	Deux groupes ne se traitent pas comme trois groupes ou plus.
La variable comparée est-elle qualitative ou quantitative ?	Une proportion et une moyenne ne se comparent pas avec les mêmes tests.
Les groupes sont-ils indépendants ou appariés ?	Une mesure avant/après chez les mêmes patients n’est pas une comparaison indépendante.
Le test répond-il à la question principale ?	Comparer dix variables descriptives ne remplace pas l’analyse du critère principal.

Si vos données sont appariées, par exemple avant/après chez les mêmes patients ou cas/témoins appariés, lisez plutôt l’article sur les données appariées. Les tests présentés ici concernent surtout les groupes indépendants.

La grille rapide de choix

Cette table donne une orientation de départ. Elle ne remplace pas un plan d’analyse statistique.

Situation	Test souvent discuté
Deux groupes, variable qualitative	Chi2 ou Fisher
Deux groupes, variable quantitative approximativement symétrique	Welch ou Student
Deux groupes, variable quantitative asymétrique ou avec valeurs extrêmes	Mann-Whitney/Wilcoxon rank-sum
Plus de deux groupes, variable qualitative	Chi2, parfois Fisher exact étendu
Plus de deux groupes, variable quantitative approximativement symétrique	ANOVA
Plus de deux groupes, variable quantitative asymétrique	Kruskal-Wallis
Groupes ordonnés	Test de tendance, modèle ordinal ou avis statistique selon le cas

Dans TablR ou dans un autre logiciel, l’outil peut vous guider. Mais il reste important de comprendre ce que vous comparez.

Comparer deux groupes indépendants

Si la variable est qualitative

Une variable qualitative décrit une catégorie : sexe, présence d’une complication, groupe de traitement, classe de sévérité, réponse oui/non.

Exemple : vous comparez la fréquence d’une complication entre deux groupes.

Groupe	Complication	Pas de complication
Traitement A	12	88
Traitement B	25	75

Les tests souvent discutés sont :

Chi2 si les effectifs attendus sont suffisants ;
Fisher exact si les effectifs sont faibles, surtout pour un tableau 2x2.

Le point important : la règle ne repose pas seulement sur les effectifs observés dans les cases, mais sur les effectifs attendus sous l’hypothèse d’absence d’association. Beaucoup de logiciels calculent ou gèrent ce point automatiquement.

Une formulation prudente dans une thèse :

Les variables qualitatives ont été comparées par test du Chi2 ou test exact de Fisher selon les effectifs attendus.

Si la variable est quantitative

Une variable quantitative est une mesure numérique : âge, score, délai, durée d’hospitalisation, valeur biologique.

Exemple : vous comparez l’âge entre deux groupes.

Groupe	n	Résumé
Traitement A	80	moyenne 64 ans, écart-type 12
Traitement B	77	moyenne 69 ans, écart-type 15

Les tests souvent discutés sont :

Welch ou Student pour comparer des moyennes ;
Mann-Whitney si les distributions sont très asymétriques, ordinales ou marquées par des valeurs extrêmes.

En pratique, le test de Welch est souvent préférable au Student strict, car il ne suppose pas l’égalité des variances entre groupes. Beaucoup d’étudiants disent “test de Student” par habitude, mais la version Welch est plus robuste dans de nombreuses situations.

Comparer plus de deux groupes

Comparer trois groupes ou plus ajoute deux difficultés :

le nombre de comparaisons possibles augmente vite ;
un test global significatif ne dit pas automatiquement quels groupes diffèrent.

Exemple : vous comparez trois stratégies de prise en charge A, B et C.

Variable qualitative : Chi2 ou Fisher

Pour une variable qualitative, on utilise souvent un test du Chi2 sur l’ensemble du tableau.

Groupe	Guérison	Pas de guérison
A	35	15
B	28	22
C	42	8

Une p-value significative indique qu’il existe une association entre le groupe et la guérison. Elle ne dit pas à elle seule si la différence vient de A vs B, A vs C, B vs C, ou d’un autre contraste.

Si les effectifs sont faibles, un test exact peut être discuté, mais son utilisation et son interprétation deviennent plus techniques lorsque le tableau dépasse 2x2.

Variable quantitative : ANOVA ou Kruskal-Wallis

Pour une variable quantitative comparée entre plus de deux groupes, on discute souvent :

ANOVA si l’objectif est de comparer des moyennes dans des conditions compatibles ;
Kruskal-Wallis si les distributions sont très asymétriques ou si une approche par rangs est plus adaptée.

Comme pour le Chi2, un résultat global significatif indique qu’au moins un groupe diffère. Il faut ensuite discuter les comparaisons post-hoc si vous voulez identifier les différences entre groupes.

Comparaisons multiples : attention au risque alpha

Chaque test statistique comporte un risque de conclure à tort à une différence. Si vous multipliez les tests, ce risque augmente.

Exemple : vous comparez 5 variables entre 3 groupes. Vous pouvez vite obtenir :

5 tests globaux ;
puis 3 comparaisons deux à deux pour chaque variable ;
soit 20 tests au total.

Plus vous testez, plus vous augmentez la probabilité d’obtenir au moins une p-value significative par hasard.

Cela ne veut pas dire qu’il est interdit de faire des comparaisons post-hoc. Cela veut dire qu’elles doivent être prévues, justifiées et parfois corrigées pour comparaisons multiples selon le contexte.

Dans une thèse, formulez clairement :

quelle comparaison est principale ;
quelles comparaisons sont secondaires ;
quelles analyses sont exploratoires ;
si une correction des comparaisons multiples a été appliquée.

Peut-on fusionner des groupes ?

Fusionner des groupes peut être pertinent, mais seulement si la fusion a un sens clinique ou méthodologique.

Exemple acceptable : regrouper “tabagisme actif” et “tabagisme sevré” en “antécédent de tabagisme” si cette définition était prévue dans le protocole et répond à la question.

Exemple risqué : fusionner deux groupes uniquement parce que leurs résultats semblent proches après avoir regardé les données.

La bonne règle :

fusionner si le regroupement est prévu ou justifié avant l’analyse ;
éviter les fusions opportunistes après lecture des résultats ;
documenter clairement la variable finale dans le protocole et le manuscrit.

Si vous avez trop de groupes et peu de sujets, le problème est souvent en amont : la variable a été trop finement codée pour l’effectif disponible.

Groupes ordonnés : ne pas aller trop vite

Certains groupes ont un ordre naturel : stade 1, 2, 3, 4 ; score léger, modéré, sévère ; dose faible, moyenne, forte.

Ce caractère ordinal est informatif, mais il ne signifie pas automatiquement que vous pouvez traiter la variable comme quantitative.

Transformer un score ordinal en nombre et réaliser une régression linéaire peut être acceptable dans certains contextes, mais ce n’est pas une règle générale. Il faut que l’écart entre les niveaux ait un sens approximativement régulier, ce qui est rarement évident.

Options à discuter selon le projet :

test de tendance ;
modèle ordinal ;
régression adaptée au type de variable ;
comparaison globale des groupes ;
avis statistique si le critère est central.

Évitez aussi de dichotomiser une variable quantitative, par exemple âge supérieur ou inférieur à 30 ans, uniquement pour simplifier. Cela fait perdre de l’information et de la puissance, sauf si le seuil est cliniquement justifié et prévu à l’avance.

Quand demander un avis statistique ?

Demandez un avis si :

le critère principal repose sur une comparaison de groupes ;
vous avez plus de deux groupes ;
les effectifs sont faibles ;
les données sont appariées ou répétées ;
vous devez ajuster sur des facteurs de confusion ;
vous prévoyez de nombreux tests ;
les groupes sont très déséquilibrés ;
vous hésitez à fusionner ou dichotomiser des variables.

L’article faire ses statistiques soi-même ou demander de l’aide détaille cette décision. Idéalement, ces choix doivent être discutés dès le protocole de thèse, avant de commencer le recueil.

Si votre base est déjà prête et que vous voulez obtenir les tests, les tableaux et une rédaction exploitable, la prestation d’analyse statistique pour thèse de médecine peut être plus adaptée qu’un choix de logiciel seul.

Checklist avant de lancer les comparaisons

Avant de cliquer sur un test, vérifiez :

le critère de jugement principal est clairement défini ;
les groupes sont indépendants ou appariés ;
la variable comparée est qualitative, quantitative ou ordinale ;
le nombre de groupes est justifié ;
les effectifs par groupe sont suffisants ;
les valeurs manquantes sont identifiées ;
les comparaisons principales sont distinguées des exploratoires ;
les tests post-hoc sont prévus si nécessaire ;
vous savez comment présenter le résultat dans le manuscrit.

Pour choisir l’outil pratique, voyez aussi quel logiciel utiliser pour les statistiques d’une thèse.

Questions fréquentes

Quel test utiliser pour comparer deux groupes ?

Cela dépend surtout du type de variable comparée. Pour une variable qualitative, on discute Chi2 ou Fisher. Pour une variable quantitative, on discute plutôt Welch/Student ou Mann-Whitney selon la distribution, les effectifs et les valeurs extrêmes.

Quand utiliser le test du Chi2 plutôt que Fisher ?

Le Chi2 est adapté quand les effectifs attendus sont suffisants. Fisher est souvent privilégié pour les petits effectifs, surtout en tableau 2x2. Le choix ne doit pas reposer uniquement sur les effectifs observés.

Le test de Mann-Whitney compare-t-il les médianes ?

Pas exactement. Le test de Mann-Whitney compare les rangs et les distributions. L’interpréter comme une comparaison de médianes n’est correct que dans des situations particulières.

Peut-on fusionner des groupes pour simplifier l’analyse ?

Oui seulement si la fusion est justifiée cliniquement et idéalement prévue avant l’analyse. Fusionner des groupes après avoir vu les résultats peut introduire un biais.

Que faire si je compare plus de deux groupes ?

On utilise souvent Chi2 ou Fisher pour les variables qualitatives, ANOVA ou Kruskal-Wallis pour les variables quantitatives. Une p-value significative indique qu’au moins un groupe diffère, puis des comparaisons post-hoc peuvent être nécessaires.

Rédaction et responsabilité éditoriale

Dr Jeremy Pasco

Médecin de santé publique, statisticien, méthodologiste et développeur des outils de these-medecine.fr.

these-medecine.fr est un service développé par PRAXLR SAS, entreprise fondée par deux médecins pour accélérer les pratiques et la recherche dans le monde médical.

Qui sommes-nous