Données appariées : définition, exemples et tests statistiques en thèse

Une définition simple des données appariées, avec exemples de thèse médicale, structure de tableur et tests statistiques adaptés.

Dans une thèse de médecine, des données appariées sont des données où les observations comparées sont liées entre elles. Ce lien peut venir du fait que vous mesurez deux fois le même patient, que vous comparez deux organes chez la même personne, ou que vous associez chaque cas à un ou plusieurs témoins similaires.

Le point important est simple : des données appariées ne doivent pas être analysées comme deux groupes indépendants. Si vous ignorez l’appariement, vous risquez de choisir un test inadapté et de perdre une partie de l’information méthodologique.

Cet article donne une définition simple des données appariées, des exemples fréquents en thèse, puis les tests statistiques à discuter. Il complète le hub quel test statistique choisir, l’article sur la comparaison de deux groupes ou plus et s’inscrit dans la section statistiques du guide complet de la thèse de médecine.

Données appariées : définition simple

Des données sont appariées lorsque les observations comparées ne sont pas indépendantes.

Exemples :

tension artérielle avant et après traitement chez les mêmes patients ;
œil droit et œil gauche chez le même patient ;
cas et témoin appariés sur l’âge et le sexe ;
score de douleur mesuré à J0, J7 et J30 ;
jumeaux ou membres d’une même fratrie ;
zones différentes d’une même image ou d’un même organe.

Dans ces situations, les observations partagent une partie de leur variabilité. Un patient comparé à lui-même avant/après n’est pas équivalent à deux patients différents. C’est cette dépendance que l’analyse doit respecter.

La réponse courte : quels tests statistiques ?

Situation	Test ou méthode souvent discuté
Deux mesures quantitatives chez les mêmes sujets	test t apparié ou Wilcoxon signé-rang
Variable binaire avant/après	test de McNemar
Cas-témoins appariés	méthode tenant compte des paires, parfois régression logistique conditionnelle
Trois temps de mesure ou plus	Friedman, ANOVA à mesures répétées, modèle mixte ou GEE selon le contexte
Données appariées avec ajustement	modèle adapté au type de variable et à la structure d’appariement

Cette table donne une orientation. Le bon choix dépend de la variable, du nombre de temps ou de paires, des données manquantes et de la question principale.

Les situations fréquentes en thèse de médecine

Avant/après chez les mêmes patients

C’est la situation la plus intuitive. Vous mesurez une variable avant une intervention, puis après.

Exemple : tension artérielle systolique avant et après introduction d’un traitement antihypertenseur.

id_patient	tas_avant	tas_apres
001	158	142
002	146	138
003	165	150

La question n’est pas “les patients avant sont-ils différents des patients après ?”. Ce sont les mêmes patients. La question est : la valeur a-t-elle changé au sein de chaque patient ?

Deux organes ou deux côtés chez le même patient

Autre exemple fréquent : deux yeux, deux genoux, deux reins, deux zones d’imagerie.

id_patient	pression_oeil_droit	pression_oeil_gauche
001	18	21
002	16	17
003	22	20

Les deux mesures viennent du même patient. Elles ne sont donc pas indépendantes.

Cas-témoins appariés

Dans une étude cas-témoins, vous pouvez apparier chaque cas à un témoin comparable : même âge, même sexe, même centre, même période, ou autre facteur important.

paire_id	statut	age	sexe	exposition
001	cas	62	F	oui
001	témoin	61	F	non
002	cas	55	M	non
002	témoin	56	M	non

Ici, la variable paire_id est essentielle. Elle indique quels sujets doivent être comparés ensemble.

Mesures répétées dans le temps

Une étude longitudinale peut mesurer les mêmes sujets à plusieurs temps : J0, J7, J30, M6.

Ce n’est plus seulement une paire. Vous avez plusieurs mesures par patient. L’analyse peut alors nécessiter une approche pour mesures répétées, souvent plus complexe qu’un simple test apparié.

Pourquoi ne pas utiliser les tests pour groupes indépendants ?

Les tests pour groupes indépendants supposent que chaque observation est indépendante des autres. Cette hypothèse est fausse si les données sont appariées.

Exemple : si chaque patient est mesuré avant et après traitement, les deux mesures d’un même patient sont liées. Certains patients ont naturellement une tension plus élevée que d’autres. L’analyse appariée tient compte de cette variabilité individuelle en regardant le changement au sein de chaque patient.

Dans une analyse avant/après, on s’intéresse souvent à la différence :

id_patient	tas_avant	tas_apres	difference
001	158	142	-16
002	146	138	-8
003	165	150	-15

Analyser les groupes “avant” et “après” comme deux échantillons indépendants reviendrait à oublier que chaque ligne forme une paire.

Comment structurer le tableur ?

La structure dépend du type d’appariement, mais une règle reste stable : l’identifiant d’appariement doit être explicite.

Format large pour un avant/après simple

Pour une paire de mesures chez les mêmes patients, un format large est souvent lisible.

id_patient	eva_avant	eva_apres
001	7	4
002	5	3

Ce format facilite le calcul d’une différence.

Format long pour des mesures répétées

Si vous avez plusieurs temps de mesure, un format long est souvent plus robuste.

id_patient	temps	eva
001	J0	7
001	J7	4
001	J30	2
002	J0	5
002	J7	3
002	J30	3

Ce format est souvent plus adapté aux modèles pour mesures répétées.

Format avec identifiant de paire

Pour une étude cas-témoins appariée, gardez une colonne d’identifiant de paire.

paire_id	sujet_id	statut	exposition
001	C001	cas	oui
001	T001	témoin	non
002	C002	cas	non
002	T002	témoin	non

Sans cette colonne, l’appariement est perdu.

Quels tests pour des paires 1:1 ?

Variable quantitative

Si vous comparez une variable quantitative entre deux mesures appariées, les tests souvent discutés sont :

test t apparié si les différences sont compatibles avec une distribution approximativement normale ;
test de Wilcoxon signé-rang si cette hypothèse est peu crédible ou si les valeurs sont très asymétriques.

Le point important : on ne teste pas séparément la distribution “avant” et la distribution “après”. On regarde surtout la distribution des différences.

Exemple :

id_patient	eva_avant	eva_apres	difference
001	8	5	-3
002	6	4	-2
003	7	7	0

La question devient : la différence moyenne ou le changement typique est-il compatible avec zéro ?

Variable qualitative binaire

Si la variable est binaire et mesurée deux fois chez les mêmes sujets, le test de McNemar est souvent utilisé.

Exemple : présence ou absence d’un symptôme avant/après.

	Après oui	Après non
Avant oui	20	12
Avant non	5	30

Le test de McNemar s’intéresse surtout aux paires discordantes : les sujets qui passent de oui à non et ceux qui passent de non à oui.

Que faire si l’appariement est 1:n ou si les mesures sont répétées ?

Les situations 1:n ou les mesures répétées demandent plus de prudence.

Cas apparié à plusieurs témoins

Dans une étude cas-témoins, un cas peut être apparié à deux, trois ou quatre témoins. Cela peut augmenter la puissance lorsque les cas sont rares.

Mais l’analyse ne se résume pas à “mettre plus de témoins dans le groupe témoin”. Il faut conserver l’information de l’appariement. Selon la question et la variable, des modèles conditionnels peuvent être nécessaires.

Au-delà de quelques témoins par cas, le gain de puissance devient souvent limité. Le choix du ratio doit être discuté au moment du protocole.

Plusieurs mesures dans le temps

Si vous mesurez une variable à trois temps ou plus, les options possibles incluent :

ANOVA à mesures répétées dans certaines situations ;
test de Friedman pour une approche non paramétrique simple ;
modèles mixtes ;
modèles GEE ;
autre modèle adapté au type de variable.

Le bon choix dépend du type de variable, du nombre de temps, des données manquantes et de la question : voulez-vous comparer chaque temps, mesurer une tendance, ou modéliser l’évolution ?

Données manquantes : un point plus sensible

Les données manquantes sont plus problématiques quand les données sont appariées.

Dans une comparaison simple avant/après, si la valeur “après” manque, la paire complète peut devenir inutilisable pour un test apparié simple. Vous ne comparez plus un avant et un après chez le même patient.

Exemple :

id_patient	eva_avant	eva_apres	utilisable_test_apparie
001	8	5	oui
002	6		non

Certaines méthodes plus avancées peuvent utiliser des données incomplètes sous conditions, mais ce n’est pas automatique. Pour une thèse simple, anticipez ce point dès le recueil.

L’article sur les valeurs manquantes dans un tableur détaille les conventions à prévoir.

Quand demander un avis statistique ?

Demandez un avis si :

l’analyse appariée est votre critère principal ;
l’appariement est 1:n ;
vous avez plus de deux temps de mesure ;
les données manquantes sont nombreuses ;
vous devez ajuster sur plusieurs facteurs ;
vous ne savez pas si votre tableur doit être en format large ou long ;
vous envisagez un modèle mixte, conditionnel ou GEE.

L’article faire ses statistiques soi-même ou demander de l’aide peut vous aider à décider quand solliciter un statisticien. Ces choix doivent idéalement être prévus dans le protocole de thèse.

Si vos données appariées sont déjà recueillies et que l’analyse conditionne la validité de vos résultats, vous pouvez aussi passer par la prestation d’analyse statistique pour thèse de médecine.

Checklist

Avant de lancer l’analyse, vérifiez :

le type d’appariement est décrit dans le protocole ;
chaque paire ou chaque sujet a un identifiant stable ;
le tableur conserve l’information d’appariement ;
les données manquantes sont codées ;
le test choisi tient compte de la dépendance entre observations ;
la variable comparée est quantitative, qualitative ou ordinale ;
les mesures répétées sont bien distinguées d’un simple avant/après ;
vous savez présenter la méthode dans la section statistique.

Pour choisir l’outil pratique, consultez aussi quel logiciel utiliser pour les statistiques d’une thèse ou testez vos analyses simples avec TablR.

Questions fréquentes

Données appariées : quelle définition simple ?

Des données sont appariées lorsque les observations comparées sont liées entre elles : même patient avant/après, deux organes chez le même patient, paire cas-témoin ou mesures répétées.

Peut-on analyser des données appariées comme deux groupes indépendants ?

Non. Ignorer l’appariement revient à perdre une information importante et peut conduire à un test inadapté. Il faut utiliser une méthode qui tient compte du lien entre les observations.

Quel test utiliser pour deux mesures quantitatives appariées ?

On discute généralement le test t apparié si les différences sont compatibles avec une distribution approximativement normale, ou le test de Wilcoxon signé-rang sinon.

Quel test utiliser pour une variable qualitative binaire appariée ?

Pour deux mesures appariées d’une variable binaire, le test de McNemar est souvent utilisé. Les situations avec plus de modalités ou plus de temps de mesure nécessitent une approche plus spécifique.

Que faire en cas d’appariement 1:n ou de mesures répétées ?

Il faut souvent discuter des modèles mixtes, modèles conditionnels, GEE ou tests adaptés aux mesures répétées. Un avis statistique est recommandé si cette analyse est centrale dans la thèse.

Rédaction et responsabilité éditoriale

Dr Jeremy Pasco

Médecin de santé publique, statisticien, méthodologiste et développeur des outils de these-medecine.fr.

these-medecine.fr est un service développé par PRAXLR SAS, entreprise fondée par deux médecins pour accélérer les pratiques et la recherche dans le monde médical.

Qui sommes-nous