Données appariées dans une thèse de médecine : comment les analyser ?
Une méthode pour reconnaître les données appariées, structurer le tableur et choisir les tests adaptés dans une thèse de médecine.
Dans une thèse de médecine, des données sont dites appariées lorsque les observations comparées sont liées entre elles. Ce lien peut venir du fait que vous mesurez deux fois le même patient, que vous comparez deux organes chez la même personne, ou que vous associez chaque cas à un ou plusieurs témoins similaires.
Le point important est simple : des données appariées ne doivent pas être analysées comme deux groupes indépendants. Si vous ignorez l’appariement, vous risquez de choisir un test inadapté et de perdre une partie de l’information méthodologique.
Cet article explique comment reconnaître les données appariées, comment structurer votre tableur et quels tests discuter. Il complète l’article sur la comparaison de deux groupes ou plus et s’inscrit dans la section statistiques du guide complet de la thèse de médecine.
Qu’appelle-t-on données appariées ?
Des données sont appariées lorsque les observations comparées ne sont pas indépendantes.
Exemples :
- tension artérielle avant et après traitement chez les mêmes patients ;
- œil droit et œil gauche chez le même patient ;
- cas et témoin appariés sur l’âge et le sexe ;
- score de douleur mesuré à J0, J7 et J30 ;
- jumeaux ou membres d’une même fratrie ;
- zones différentes d’une même image ou d’un même organe.
Dans ces situations, les observations partagent une partie de leur variabilité. Un patient comparé à lui-même avant/après n’est pas équivalent à deux patients différents. C’est cette dépendance que l’analyse doit respecter.
Les situations fréquentes en thèse de médecine
Avant/après chez les mêmes patients
C’est la situation la plus intuitive. Vous mesurez une variable avant une intervention, puis après.
Exemple : tension artérielle systolique avant et après introduction d’un traitement antihypertenseur.
| id_patient | tas_avant | tas_apres |
|---|---|---|
| 001 | 158 | 142 |
| 002 | 146 | 138 |
| 003 | 165 | 150 |
La question n’est pas “les patients avant sont-ils différents des patients après ?”. Ce sont les mêmes patients. La question est : la valeur a-t-elle changé au sein de chaque patient ?
Deux organes ou deux côtés chez le même patient
Autre exemple fréquent : deux yeux, deux genoux, deux reins, deux zones d’imagerie.
| id_patient | pression_oeil_droit | pression_oeil_gauche |
|---|---|---|
| 001 | 18 | 21 |
| 002 | 16 | 17 |
| 003 | 22 | 20 |
Les deux mesures viennent du même patient. Elles ne sont donc pas indépendantes.
Cas-témoins appariés
Dans une étude cas-témoins, vous pouvez apparier chaque cas à un témoin comparable : même âge, même sexe, même centre, même période, ou autre facteur important.
| paire_id | statut | age | sexe | exposition |
|---|---|---|---|---|
| 001 | cas | 62 | F | oui |
| 001 | témoin | 61 | F | non |
| 002 | cas | 55 | M | non |
| 002 | témoin | 56 | M | non |
Ici, la variable paire_id est essentielle. Elle indique quels sujets doivent être comparés ensemble.
Mesures répétées dans le temps
Une étude longitudinale peut mesurer les mêmes sujets à plusieurs temps : J0, J7, J30, M6.
Ce n’est plus seulement une paire. Vous avez plusieurs mesures par patient. L’analyse peut alors nécessiter une approche pour mesures répétées, souvent plus complexe qu’un simple test apparié.
Pourquoi ne pas utiliser les tests pour groupes indépendants ?
Les tests pour groupes indépendants supposent que chaque observation est indépendante des autres. Cette hypothèse est fausse si les données sont appariées.
Exemple : si chaque patient est mesuré avant et après traitement, les deux mesures d’un même patient sont liées. Certains patients ont naturellement une tension plus élevée que d’autres. L’analyse appariée tient compte de cette variabilité individuelle en regardant le changement au sein de chaque patient.
Dans une analyse avant/après, on s’intéresse souvent à la différence :
| id_patient | tas_avant | tas_apres | difference |
|---|---|---|---|
| 001 | 158 | 142 | -16 |
| 002 | 146 | 138 | -8 |
| 003 | 165 | 150 | -15 |
Analyser les groupes “avant” et “après” comme deux échantillons indépendants reviendrait à oublier que chaque ligne forme une paire.
Comment structurer le tableur ?
La structure dépend du type d’appariement, mais une règle reste stable : l’identifiant d’appariement doit être explicite.
Format large pour un avant/après simple
Pour une paire de mesures chez les mêmes patients, un format large est souvent lisible.
| id_patient | eva_avant | eva_apres |
|---|---|---|
| 001 | 7 | 4 |
| 002 | 5 | 3 |
Ce format facilite le calcul d’une différence.
Format long pour des mesures répétées
Si vous avez plusieurs temps de mesure, un format long est souvent plus robuste.
| id_patient | temps | eva |
|---|---|---|
| 001 | J0 | 7 |
| 001 | J7 | 4 |
| 001 | J30 | 2 |
| 002 | J0 | 5 |
| 002 | J7 | 3 |
| 002 | J30 | 3 |
Ce format est souvent plus adapté aux modèles pour mesures répétées.
Format avec identifiant de paire
Pour une étude cas-témoins appariée, gardez une colonne d’identifiant de paire.
| paire_id | sujet_id | statut | exposition |
|---|---|---|---|
| 001 | C001 | cas | oui |
| 001 | T001 | témoin | non |
| 002 | C002 | cas | non |
| 002 | T002 | témoin | non |
Sans cette colonne, l’appariement est perdu.
Quels tests pour des paires 1:1 ?
Variable quantitative
Si vous comparez une variable quantitative entre deux mesures appariées, les tests souvent discutés sont :
- test t apparié si les différences sont compatibles avec une distribution approximativement normale ;
- test de Wilcoxon signé-rang si cette hypothèse est peu crédible ou si les valeurs sont très asymétriques.
Le point important : on ne teste pas séparément la distribution “avant” et la distribution “après”. On regarde surtout la distribution des différences.
Exemple :
| id_patient | eva_avant | eva_apres | difference |
|---|---|---|---|
| 001 | 8 | 5 | -3 |
| 002 | 6 | 4 | -2 |
| 003 | 7 | 7 | 0 |
La question devient : la différence moyenne ou le changement typique est-il compatible avec zéro ?
Variable qualitative binaire
Si la variable est binaire et mesurée deux fois chez les mêmes sujets, le test de McNemar est souvent utilisé.
Exemple : présence ou absence d’un symptôme avant/après.
| Après oui | Après non | |
|---|---|---|
| Avant oui | 20 | 12 |
| Avant non | 5 | 30 |
Le test de McNemar s’intéresse surtout aux paires discordantes : les sujets qui passent de oui à non et ceux qui passent de non à oui.
Que faire si l’appariement est 1:n ou si les mesures sont répétées ?
Les situations 1:n ou les mesures répétées demandent plus de prudence.
Cas apparié à plusieurs témoins
Dans une étude cas-témoins, un cas peut être apparié à deux, trois ou quatre témoins. Cela peut augmenter la puissance lorsque les cas sont rares.
Mais l’analyse ne se résume pas à “mettre plus de témoins dans le groupe témoin”. Il faut conserver l’information de l’appariement. Selon la question et la variable, des modèles conditionnels peuvent être nécessaires.
Au-delà de quelques témoins par cas, le gain de puissance devient souvent limité. Le choix du ratio doit être discuté au moment du protocole.
Plusieurs mesures dans le temps
Si vous mesurez une variable à trois temps ou plus, les options possibles incluent :
- ANOVA à mesures répétées dans certaines situations ;
- test de Friedman pour une approche non paramétrique simple ;
- modèles mixtes ;
- modèles GEE ;
- autre modèle adapté au type de variable.
Le bon choix dépend du type de variable, du nombre de temps, des données manquantes et de la question : voulez-vous comparer chaque temps, mesurer une tendance, ou modéliser l’évolution ?
Données manquantes : un point plus sensible
Les données manquantes sont plus problématiques quand les données sont appariées.
Dans une comparaison simple avant/après, si la valeur “après” manque, la paire complète peut devenir inutilisable pour un test apparié simple. Vous ne comparez plus un avant et un après chez le même patient.
Exemple :
| id_patient | eva_avant | eva_apres | utilisable_test_apparie |
|---|---|---|---|
| 001 | 8 | 5 | oui |
| 002 | 6 | non |
Certaines méthodes plus avancées peuvent utiliser des données incomplètes sous conditions, mais ce n’est pas automatique. Pour une thèse simple, anticipez ce point dès le recueil.
L’article sur les valeurs manquantes dans un tableur détaille les conventions à prévoir.
Quand demander un avis statistique ?
Demandez un avis si :
- l’analyse appariée est votre critère principal ;
- l’appariement est 1:n ;
- vous avez plus de deux temps de mesure ;
- les données manquantes sont nombreuses ;
- vous devez ajuster sur plusieurs facteurs ;
- vous ne savez pas si votre tableur doit être en format large ou long ;
- vous envisagez un modèle mixte, conditionnel ou GEE.
L’article faire ses statistiques soi-même ou demander de l’aide peut vous aider à décider quand solliciter un statisticien. Ces choix doivent idéalement être prévus dans le protocole de thèse.
Checklist
Avant de lancer l’analyse, vérifiez :
- le type d’appariement est décrit dans le protocole ;
- chaque paire ou chaque sujet a un identifiant stable ;
- le tableur conserve l’information d’appariement ;
- les données manquantes sont codées ;
- le test choisi tient compte de la dépendance entre observations ;
- la variable comparée est quantitative, qualitative ou ordinale ;
- les mesures répétées sont bien distinguées d’un simple avant/après ;
- vous savez présenter la méthode dans la section statistique.
Pour choisir l’outil pratique, consultez aussi quel logiciel utiliser pour les statistiques d’une thèse ou testez vos analyses simples avec TablR.
Questions fréquentes
Qu’est-ce qu’une donnée appariée ?
Des données sont appariées lorsque les observations comparées ne sont pas indépendantes : même patient avant/après, deux organes chez le même patient, paire cas-témoin ou mesures répétées.
Peut-on analyser des données appariées comme deux groupes indépendants ?
Non. Ignorer l’appariement revient à perdre une information importante et peut conduire à un test inadapté. Il faut utiliser une méthode qui tient compte du lien entre les observations.
Quel test utiliser pour deux mesures quantitatives appariées ?
On discute généralement le test t apparié si les différences sont compatibles avec une distribution approximativement normale, ou le test de Wilcoxon signé-rang sinon.
Quel test utiliser pour une variable qualitative binaire appariée ?
Pour deux mesures appariées d’une variable binaire, le test de McNemar est souvent utilisé. Les situations avec plus de modalités ou plus de temps de mesure nécessitent une approche plus spécifique.
Que faire en cas d’appariement 1:n ou de mesures répétées ?
Il faut souvent discuter des modèles mixtes, modèles conditionnels, GEE ou tests adaptés aux mesures répétées. Un avis statistique est recommandé si cette analyse est centrale dans la thèse.