Thèse de médecine rétrospective : méthode, CNIL, recueil et limites

Une méthode concrète pour cadrer une thèse rétrospective avant l’extraction : source de données, population, variables, cadre réglementaire, tableur, statistiques et limites.

Une thèse de médecine rétrospective attire souvent parce qu’elle semble plus simple : les patients ont déjà été pris en charge, les dossiers existent, les données sont quelque part dans le service. En pratique, c’est une bonne option pour beaucoup de thèses, mais seulement si le projet est cadré avant l’extraction.

Le piège classique est de commencer par “récupérer les dossiers”, puis de décider ensuite de la question, des variables et des analyses. Cette logique produit souvent une base difficile à interpréter : critères flous, données manquantes, période mal choisie, groupes déséquilibrés, variables impossibles à retrouver.

Cet article s’inscrit dans la section Méthode et protocole du guide complet de la thèse de médecine. Il explique comment construire une étude rétrospective à partir de dossiers patients, logiciels métier, PMSI, registres ou entrepôts de données, sans négliger le cadre réglementaire.

La réponse courte

Une étude rétrospective utilise des données déjà existantes au moment où vous construisez le protocole. Ces données peuvent provenir de dossiers médicaux, d’un logiciel de consultation, du PMSI, d’un registre, d’une extraction hospitalière ou d’un entrepôt de données de santé.

Avant toute extraction, il faut définir :

la question de recherche ;
la population ;
la période ;
le critère principal ;
les variables nécessaires ;
les règles d’exclusion ;
la stratégie de gestion des données manquantes ;
les démarches locales liées aux données de santé ;
le plan d’analyse statistique.

Le fait que les données existent déjà ne dispense pas de protocole, de validation locale ni de prudence méthodologique.

Qu’est-ce qu’une étude rétrospective ?

Dans une thèse rétrospective, les événements étudiés ont déjà eu lieu au moment où vous commencez l’étude. Vous ne suivez pas les patients à partir d’aujourd’hui. Vous réutilisez des données déjà produites dans un autre contexte : soin, codage, registre, suivi administratif, base métier ou recherche antérieure.

Exemples fréquents :

analyser les dossiers de patients hospitalisés pour pneumonie entre 2022 et 2025 ;
étudier les facteurs associés à une réhospitalisation à 30 jours ;
mesurer la conformité d’une prescription aux recommandations ;
décrire les complications après une intervention ;
comparer deux périodes avant/après changement de protocole ;
identifier les caractéristiques des patients admis en réanimation ;
étudier une cohorte issue d’un registre ;
analyser des données médico-administratives PMSI.

Une étude rétrospective peut être descriptive, comparative, de type cohorte rétrospective, cas-témoins, avant/après ou transversale selon la question. Le mot “rétrospective” décrit surtout le moment où les données ont été produites. Il ne suffit pas à définir toute la méthode.

Les sources de données possibles

Dossiers patients

C’est la situation la plus courante : vous relisez des dossiers papier ou informatisés pour extraire des informations cliniques, biologiques, radiologiques, thérapeutiques ou de suivi.

Avantage : les données sont proches de la réalité clinique.

Limites : les informations ne sont pas toujours écrites, pas toujours au même endroit, pas toujours dans le même format. Une donnée absente du dossier n’est pas forcément une donnée négative.

Logiciels métier

Un logiciel d’urgences, d’anesthésie, de consultation, de biologie, d’imagerie ou de bloc opératoire peut fournir une extraction structurée.

Avantage : les variables sont parfois déjà codées ou datées.

Limites : les champs ne sont pas toujours conçus pour la recherche. Certains éléments importants peuvent être en texte libre ou codés de manière hétérogène.

PMSI et données médico-administratives

Le PMSI peut être utile pour identifier des séjours, des diagnostics codés, des actes, des durées de séjour ou des réhospitalisations. La CNIL rappelle que le PMSI fait partie des bases hospitalières intégrées au Système National des Données de Santé.

Avantage : gros volume, disponibilité, données standardisées à l’échelle d’un établissement ou au-delà.

Limites : le PMSI est d’abord une donnée médico-administrative. Le codage peut être incomplet, orienté par les règles de facturation, ou insuffisant pour répondre à une question clinique fine.

Registres

Un registre peut fournir une base déjà structurée sur une pathologie, un acte, une population ou un suivi.

Avantage : définition plus homogène des variables, parfois meilleure qualité de recueil.

Limites : accès à organiser, périmètre parfois différent de votre question, données disponibles limitées à ce que le registre recueille.

Entrepôts de données de santé

Un entrepôt de données de santé peut permettre de réutiliser des données hospitalières déjà intégrées dans une infrastructure de recherche. La CNIL distingue la constitution d’un entrepôt et la réalisation d’une recherche ponctuelle à partir de données de santé ; la réutilisation des données d’un entrepôt doit être discutée dans son propre cadre.

Avantage : accès à des volumes importants, possibilité de chaîner plusieurs sources, données parfois préparées pour la recherche.

Limites : délais d’accès, gouvernance locale, dictionnaire des variables, qualité variable selon les champs et nécessité d’une demande structurée.

Ne partez pas de la base, partez de la question

Une base disponible ne fait pas une thèse. Elle peut donner une opportunité, mais elle ne remplace pas la question de recherche.

Comparez ces deux formulations :

Formulation fragile	Formulation plus exploitable
“On a tous les dossiers de lombalgies aux urgences.”	“Chez les patients adultes consultant pour lombalgie aiguë non compliquée, quelle proportion reçoit une imagerie non recommandée ?”
“On peut extraire le PMSI des insuffisances cardiaques.”	“Quels facteurs disponibles au codage sont associés à une réhospitalisation à 30 jours après séjour pour insuffisance cardiaque ?”
“Le service a un registre de chirurgie.”	“Quelle est la fréquence des complications à 30 jours après la technique A, et quels facteurs sont associés à leur survenue ?”

La question doit guider la source de données. Si la source ne contient pas les variables nécessaires, il faut changer la question, compléter le recueil ou renoncer.

Si cette étape est floue, commencez par formuler votre question de recherche avant de construire la base.

Définir la population et la période

Dans une étude rétrospective, la population se définit par des critères d’inclusion et d’exclusion appliqués à des données existantes.

Précisez :

le lieu : service, cabinet, centre, registre, base ;
la période : dates exactes de début et de fin ;
l’unité d’analyse : patient, séjour, consultation, acte, prélèvement, épisode ;
les critères d’inclusion ;
les critères d’exclusion ;
la stratégie en cas de séjours multiples ou consultations répétées ;
la façon dont les patients seront identifiés.

L’unité d’analyse est souvent sous-estimée. Si un patient a trois séjours, votre ligne représente-t-elle le patient ou le séjour ? Si un patient a dix consultations, analysez-vous chaque consultation ou seulement la première ? Ce choix change la structure du tableur et les analyses possibles.

Choisir le critère principal avant l’extraction

Le critère principal est la variable qui répond à la question principale.

Exemples :

présence d’une réhospitalisation à 30 jours ;
conformité de la prescription à une recommandation ;
survenue d’une complication ;
durée de séjour ;
délai entre admission et prise en charge ;
résultat d’un examen ;
mortalité hospitalière ;
score clinique à l’admission.

Dans une thèse rétrospective, le critère principal doit être disponible, fiable et daté si nécessaire. Évitez un critère qui repose sur une interprétation trop subjective du dossier.

Exemple fragile :

“prise en charge satisfaisante”

Exemple plus solide :

“prescription d’une antibiothérapie conforme à la recommandation locale, définie par molécule, dose et durée”

Le critère principal doit être défini dans le protocole de thèse de médecine, pas après lecture des premiers résultats.

Construire la liste des variables

La liste des variables doit rester liée aux objectifs.

Trois catégories suffisent souvent :

Type de variable	Rôle	Exemple
Variables d’inclusion et d’exclusion	Définir la population	âge, diagnostic, date, service
Variables descriptives	Décrire les patients ou séjours	sexe, comorbidités, gravité, traitement
Variables d’analyse	Répondre aux objectifs	critère principal, exposition, groupe, outcome

Évitez de recueillir tout ce qui pourrait être “intéressant”. Chaque variable coûte du temps et augmente le risque d’erreur.

Pour chaque variable, décidez avant le recueil :

son nom court ;
sa définition ;
sa source dans le dossier ;
son format ;
ses modalités possibles ;
son unité ;
la règle si l’information est absente ;
si elle est indispensable ou secondaire.

Exemple :

Variable	Définition	Format	Source
`age`	âge en années à l’admission	nombre entier	identité du séjour
`rehosp_30j`	réhospitalisation non programmée dans les 30 jours	oui/non	dossier + logiciel administratif
`creat_adm`	créatinine à l’admission	µmol/L	biologie initiale
`atb_conforme`	antibiotique conforme à la recommandation locale	oui/non	prescription + référentiel

Cette étape prépare directement le tableur de recueil de thèse.

Tester la faisabilité sur quelques dossiers

Avant de lancer le recueil complet, testez 5 à 10 dossiers.

Objectifs du test :

vérifier que les dossiers sont retrouvables ;
estimer le temps de recueil par dossier ;
repérer les variables souvent absentes ;
vérifier que le critère principal est disponible ;
identifier les ambiguïtés ;
ajuster le dictionnaire des variables ;
vérifier que l’export ou le tableur est exploitable.

Ce test peut modifier le projet. C’est normal. Mieux vaut découvrir tôt qu’une variable est inutilisable plutôt qu’après 300 dossiers.

Exemple : vous pensiez recueillir le tabagisme, mais il n’est documenté que dans 35 % des dossiers. Selon son importance, vous devrez soit l’abandonner, soit le coder comme donnée manquante, soit restreindre le projet à une période ou une source plus fiable.

CNIL, registre, MR-004 : que vérifier ?

Une thèse rétrospective utilise souvent des données de santé. Elle doit donc être discutée avec les interlocuteurs compétents : directeur, DPO, cellule recherche, service juridique, université ou établissement responsable.

La CNIL indique que, pour une thèse ou un mémoire en santé, l’étudiant doit se rapprocher du service compétent en interne et du DPO si la structure en a désigné un. Elle rappelle aussi que le doctorant ou l’étudiant ne doit pas réaliser une formalité auprès de la CNIL en son nom propre : la démarche relève de l’établissement responsable.

En pratique :

si l’étude est strictement interne, menée à partir de données recueillies dans le cadre du suivi médical individuel, par les personnels assurant ce suivi et pour leur usage exclusif, l’inscription au registre des traitements peut être le cadre à discuter ;
si le projet réutilise des données de santé dans une recherche n’impliquant pas la personne humaine, la MR-004 est souvent un cadre à vérifier ;
si les données sortent de l’équipe de soins, si le projet est multicentrique, si un tiers accède aux données, si la source est un entrepôt ou si le projet ne rentre pas dans une méthodologie de référence, le circuit peut être différent ;
si le projet implique directement des personnes, la qualification de recherche impliquant la personne humaine doit être discutée. Le Code de la santé publique définit ce cadre à l’article L1121-1.

La bonne formulation n’est donc pas “rétrospectif = pas de démarche”. C’est plutôt : “rétrospectif = qualification locale avant recueil”.

Pour approfondir, lisez l’article dédié à la thèse de médecine et aux démarches CNIL.

Préparer le fichier de recueil

Le fichier de recueil doit être construit avant l’extraction complète.

Règles de base :

une ligne par unité d’analyse ;
une colonne par variable ;
des noms de variables courts ;
pas de couleur comme information ;
pas de fusion de cellules ;
pas de texte libre quand une modalité codée suffit ;
un dictionnaire des variables ;
une règle pour les valeurs manquantes ;
une sauvegarde dans un espace validé localement.

Pour les données de santé identifiantes ou pseudonymisées, le lieu de stockage et les accès doivent être validés. Évitez les fichiers personnels, les envois non sécurisés et les copies multiples.

La CNIL recommande notamment de stocker les données sur un espace sauvegardé accessible via le réseau interne de l’organisme plutôt que sur un poste personnel, et de limiter l’usage de supports amovibles.

Gérer les données manquantes

Les données manquantes sont inévitables dans une étude rétrospective. Elles ne sont pas seulement un problème technique. Elles peuvent modifier l’interprétation.

Distinguez :

donnée non recherchée ;
donnée non disponible dans le dossier ;
donnée non applicable ;
donnée illisible ;
donnée présente dans une source mais absente d’une autre ;
donnée impossible à dater.

Ne remplacez pas automatiquement une absence d’information par “non”.

Exemple : si le dossier ne mentionne pas le tabagisme, cela ne veut pas dire que le patient est non fumeur. Cela veut dire que l’information n’est pas disponible, sauf si votre source documente explicitement l’absence de tabagisme.

L’article sur les valeurs manquantes dans un tableur de thèse détaille les conventions utiles.

Anticiper les statistiques

Les analyses doivent découler de la question.

Avant l’extraction, sachez si votre thèse vise surtout à :

décrire une population ;
estimer une fréquence ;
comparer deux groupes ;
identifier des facteurs associés ;
analyser un délai ;
comparer une période avant/après ;
construire un score ;
évaluer une conformité.

Une étude rétrospective descriptive peut se limiter à des effectifs, pourcentages, moyennes, médianes et intervalles de confiance.

Une étude comparative peut nécessiter des tests adaptés, voire un modèle multivarié si vous voulez tenir compte de facteurs de confusion.

Si vous prévoyez une comparaison ou un modèle, discutez tôt du nombre de sujets nécessaires ou au moins de l’effectif disponible. Une base rétrospective très petite ne devient pas puissante parce qu’elle est facile à extraire.

L’article sur le choix entre faire ses statistiques soi-même ou demander de l’aide peut vous aider à décider quand solliciter un avis.

Les biais fréquents d’une étude rétrospective

Une thèse rétrospective peut être très utile, mais elle a des limites à reconnaître.

Biais de sélection

Les patients inclus ne représentent pas toujours tous les patients concernés. Vous analysez ceux qui sont passés par le service, ceux qui ont été codés, ceux dont le dossier est retrouvable, ou ceux qui apparaissent dans la source choisie.

Biais d’information

Les données n’ont pas été collectées pour votre question. Certaines informations peuvent être absentes, approximatives, mal codées ou notées différemment selon les médecins.

Confusion

Une association observée peut être expliquée par un autre facteur. Par exemple, un traitement peut sembler associé à une mortalité plus élevée simplement parce qu’il est donné aux patients les plus graves.

Changement de pratiques

Sur plusieurs années, les recommandations, les logiciels, les équipes ou les protocoles peuvent changer. Les patients de 2021 ne sont pas toujours comparables à ceux de 2026.

Données manquantes

Si une variable importante manque souvent, elle peut fragiliser l’analyse. Le taux et le mécanisme des données manquantes doivent être décrits.

Les recommandations STROBE peuvent aider à rapporter clairement les études observationnelles, notamment cohortes, cas-témoins et études transversales. Le site propose aussi un guide dédié pour utiliser STROBE dans une thèse observationnelle.

Checklist avant extraction

Avant de commencer le recueil complet, vérifiez que vous avez :

une question de recherche claire ;
un directeur ou encadrant identifié ;
une source de données définie ;
une période précise ;
une unité d’analyse ;
des critères d’inclusion et d’exclusion ;
un critère principal ;
une liste de variables justifiées ;
un dictionnaire des variables ;
un test sur quelques dossiers ;
une estimation de l’effectif disponible ;
une stratégie pour les données manquantes ;
un fichier de recueil validé ;
un lieu de stockage validé ;
une qualification réglementaire discutée localement ;
un plan d’analyse cohérent avec la question.

Si plusieurs cases restent floues, ne lancez pas encore l’extraction. Revenez au protocole de thèse et clarifiez les décisions structurantes.

Questions fréquentes

Une thèse rétrospective est-elle plus simple qu’une thèse prospective ?

Elle est souvent plus rapide à mettre en place car les données existent déjà, mais elle n’est pas forcément simple. La qualité des dossiers, les données manquantes, les biais, l’accès aux données et le cadre réglementaire doivent être anticipés.

Faut-il un protocole pour une étude rétrospective ?

Oui. Même si les données sont déjà présentes, il faut définir avant l’extraction la population, la période, le critère principal, les variables, les exclusions, le cadre réglementaire et le plan d’analyse.

Une étude rétrospective sur dossiers patients relève-t-elle de la MR-004 ?

Souvent, la MR-004 est le cadre à discuter pour une recherche n’impliquant pas la personne humaine et réutilisant des données déjà collectées. Il faut toutefois vérifier localement que le projet respecte bien son périmètre et que l’établissement responsable porte la démarche.

Faut-il informer les patients pour une thèse rétrospective ?

Dans la plupart des situations, une information des personnes concernées est à prévoir selon des modalités adaptées au projet et au cadre retenu. Ce point doit être validé avec le DPO ou la structure de recherche, notamment si l’information individuelle est impossible ou disproportionnée.

Comment limiter les biais dans une étude rétrospective ?

Il faut définir les critères avant l’extraction, tester le recueil sur quelques dossiers, documenter les données manquantes, éviter les variables trop subjectives, garder une période cohérente et décrire clairement les limites dans le manuscrit.

Rédaction et responsabilité éditoriale

Dr Jeremy Pasco

Médecin de santé publique, statisticien, méthodologiste et développeur des outils de these-medecine.fr.

these-medecine.fr est un service développé par PRAXLR SAS, entreprise fondée par deux médecins pour accélérer les pratiques et la recherche dans le monde médical.

Qui sommes-nous