Comparer 2 groupes ou plus

Que vous compariez des traitements, des protocoles, des établissements… cela revient à comparer plusieurs groupes. C’est l’une des situations les plus fréquentes en statistique.

Note : les groupes appariés et les comparaisons de survies entre plusieurs groupes sont des cas particuliers qui seront traités ailleurs.

Si vous comparez 2 groupes

Avec 2 groupes, vous pouvez comparer vos variables qualitatives avec un test du Chi2 ou un test de Fisher selon vos effectifs. Réalisez votre tableau de contingence et vérifiez si au moins une case ne comprend un effectif inférieur à 5. SI c’est le cas, optez pour un test de Fisher. Sinon, utilisez un test du Chi2.

Ex : Sur ce tableau de contingence, l’effectif le plus faible est de 15 (végétariens en Espagne). On peut donc opter pour un test du Chi2.

Pour vos variables quantitatives, vous pourrez opter pour un test de Student si la distribution est normale. Sinon, optez pour un test de Wilcoxon. Un test de Wilcoxon n’explore pas la même chose qu’un test de Student. 

Le Student part du principe que vos distributions sont normales, donc que vos valeurs sont centrées autour d’une moyenne. On prend alors le raccourci de comparer les moyennes entre vos 2 groupes pour dire si l’un est supérieur à l’autre. Les moyennes sont affectées par les valeurs extrêmes, il en sera donc de même pour le test de Student.

Avec un test de Student, vous pourrez quantifier la différence entre vos 2 groupes en mentionnant la différence moyenne et son intervalle de confiance à 95%.

Ex : Le groupe A présente un âge moyen de 9,8 ans (écart-type = 16,4). Le groupe A est en moyenne plus âgé de 4,2 ans [-9,5 ; 18] IC95 que le groupe B, mais cette différence n’est pas significative (p=0,5 avec un test de Student).

Le Wilcoxon lui va explorer le rang de vos valeurs. Il ne sera pas affecté par les valeurs extrêmes.

Les moyennes n’ayant d’intérêt que si vos variables suivent une distribution normale, vous ne pourrez exprimer la différence moyenne entre vos 2 groupes avec un Wilcoxon. À la place, mentionnez les valeurs minimales, maximales, Q1-Q3 et la médiane. On ne calcule pas d’intervalle de confiance pour ces paramètres.

Ex : le groupe B comprends des sujets plus âgés (âge médian = 4,5 ans, Q1 = 2,8 ans, Q3 = 6,2 ans). Cette différence d’âge est non significative (p=0,6 avec un test de Wilcoxon).

Si vous comparez plus de 2 groupes

Comparer plus de deux groupes ajoute un nombre important de contraintes. Plusieurs possibilités s’offrent à vous.

Fusionner vos groupes

Lorsque c’est possible, Il vaut mieux fusionner vos groupes pour retomber dans une situation avec deux groupes.

Ex : vous souhaitez comparer la fréquence d’une pathologie entre 3 groupes de patients : fumeurs actifs, fumeurs passifs et non fumeurs. Si vous pensez que les groupes tabagismes passif et actif sont similaires, envisagez de les regrouper en un groupe tabagisme tous confondus. Vous retombez ainsi dans un cas plus simple (voir comparaison de 2 groupes).

Si l’obtention de 2 groupes n’est pas envisageable, veillez tout de même à réduire au maximum vos groupes. Cela permettra de maximiser le nombre de sujets par groupes, et donc de simplifier vos analyses et gagner en puissance. Moins de groupes implique également moins de tests statistiques et donc un risque alpha moindre.

Effectuer un test d’homogénéité

Si vous souhaitez vérifier l’homogénéité des groupes (voir si l’un d’eux sort de la masse), voici comment procéder.

Avec 3 groupes ou plus, vous pouvez comparer vos variables qualitatives avec un test du Chi2 ou un test de Fisher selon vos effectifs. Pour vos variables quantitatives, vous pourrez opter pour une ANOVA si la distribution de vos variables est normale, sinon optez pour un test de Kruskal-Wallis.

Avec un test d’homogénéité sur 3 groupes ou plus, une p-value significative indique seulement qu’au moins l’un des groupes se distingue des autres. C’est-à-dire que vos groupes ne sont pas homogènes. Vous ne saurez pas précisément où se situe cette différence sans observer en détail vos effectifs ou effectuer des tests post-hoc, autrement dit compléter avec des comparaisons de vos groupes 2 à 2 (A vs B, A vs C et B vs C).

Le nombre de tests à réaliser augmente très vite avec cette approche. Pour 5 variables à comparer entre 3 groupes, cela implique 20 tests (5 tests d’homogénéité + 3 x 5 tests de comparaison 2 à 2). Vous augmentez donc rapidement votre risque alpha et devrez probablement ajuster sur ce risque.

Si le résultat est non significatif, rappelez-vous que vous ne pouvez pas conclure à l’absence de différence, car on n’accepte jamais l’hypothèse nulle. Vous ne pouvez donc pas conclure que vos groupes sont homogènes parce que votre p-value n’est pas significative.

Enfin, sachez qu’un résultat non significatif sur vos N groupes n’exclue pas la possibilité qu’il y ait une différence entre deux groupes spécifiques. Voici un exemple :

Un test du Chi2 sur ces 3 groupes donne un résultat non significatif (p=0,13).

En ne comparant que les groupes Espagne et France, le résultat est significatif (p=0,037). Le même phénomène peut être observé avec une ANOVA ou un Kruskal-Wallis sur des variables quantitatives.

Prendre un groupe comme référence

Pour comparer plus finement vos groupes, voire mettre en évidence une hiérarchie entre eux, voici une autre approche.

Comme vu plus haut, on ne peut mettre en évidence la supériorité d’un groupe sur autre sans les comparer 2 à 2. La solution sera donc de prendre un groupe de référence et de comparer les autres groupes à celui-ci.

Ex : Vous comparez les groupes A, B et C. Vous prenez le groupe A comme référence. Vous effectuez donc 2 comparaisons : A vs B, puis A vs C. Vous obtenez les résultats suivants :

Vous en déduisez qu’en termes de guérison, les groupes peuvent être classés C > A > B, mais que les différences entre [A et B] et entre [A et C] ne sont pas significatives.

La différence entre les groupes B et C n’a pas été explorée. Elle peut l’être au prix d’autres tests et donc d’une augmentation du risque alpha.

Attention : contrairement aux autres approches proposées, ici les comparaisons se font à chaque fois sur une sous-partie de votre échantillon. En comparant A et B, on exclut de l’analyse les sujets du groupe C. Ces comparaisons sont donc moins puissantes que des tests d’homogénéité. Il est important de fusionner au maximum vos groupes et ainsi augmenter l’effectif inclus dans vos comparaisons. 

Il est également important de sélectionner un groupe de référence avec un effectif important car ce groupe sera réutilisé dans chaque comparaison.

Groupes ordinaux

Parfois, vos groupes traduisent un ordre, une progression ou une aggravation. Prenez par exemple un score de sévérité allant de 1 à 4. Si vous avez classé vos sujets en 4 groupes selon ce score de sévérité, on peut dire qu’il y a un ordre entre vos groupes : 1 ⇾ 2 ⇾ 3 ⇾ 4.

Dans ce cas, il peut être envisagé de transformer votre variable groupe en une variable quantitative. Au lieu de comparer des groupes, vous pourrez explorer le lien entre vos variables et ce score de sévérité à l’aide de régressions linéaires.

Une régression linéaire explore le lien entre des facteurs (exemple : l’âge, le sexe masculin) et une variable à prédire (ici le score de sévérité). Elle va permettre de trouver la valeur de Beta et Intercept dans les équations suivantes : 

  • Score de sévérité = Beta1 x Age + Intercept1
  • Score de sévérité = Beta2 x SexeMasculin + Intercept2 (SexeMasculin vaudra 0 ou 1)

Beta sera le poids du facteur sur la sévérité. Intercept est une valeur généralement sans intérêt.

Voici un exemple de résultats :

Le sexe masculin est associé à une augmentation de la sévérité (Beta > 0) mais non significative (p=0,10). On peut résumer la situation comme ceci : chez les hommes, la sévérité est en moyenne plus élevée de 0,23 [-0,04 ; 0,50] point que chez les femmes, cette différence n’est pas significative.

Le 0,23 point s’entend pour notre score de sévérité qui varie entre 1 et 4.

Si notre variable âge ne semble pas influer du tout sur la sévérité, c’est parce que nous l’avons étudié de façon quantitative. Le coefficient Beta est exprimé pour chaque année de vie supplémentaire. On s’attend donc à un effet minime. Une manière plus intéressante d’explorer les variables quantitatives peut être de les dichotomiser. Voici un exemple avec la variable Age supérieur à 30 ans :

L’effet reste minime, mais non nul. On peut conclure qu’en moyenne les sujets de plus de 30 ans ont une sévérité diminuée de 0,05 point [-0,47 ; 0,38] IC95 mais que cette différence n’est pas significative (p=0,8).

Cette approche nécessite tout de même une précaution. Une régression linéaire va chercher à mettre en évidence une évolution linéaire de votre score selon vos facteurs. Il faut donc que la sévérité évolue linéairement entre vos groupes. La différence de sévérité entre vos groupes [1 et 2] doit être la même qu’entre vos groupes [2 et 3] et [3 et 4]. Ce point doit être communément admis. Dans le cas contraire, conserver l’approche de comparaison des groupes.

Conclusion

Comparer plus de 2 groupes mène rapidement à un nombre de tests très conséquent. Visez la simplicité en réduisant le nombre de groupes au minimum nécessaire.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut