Anonymiser ou pseudonymiser une base de thèse médicale : méthode pratique

Une méthode concrète pour distinguer anonymisation et pseudonymisation, construire une base de thèse médicale plus sûre et éviter les erreurs fréquentes.

Dans une thèse de médecine, on parle souvent d’une base “anonymisée” dès que le nom et le prénom ont été retirés. C’est rarement exact. Une base sans nom peut encore permettre de reconnaître un patient par un numéro de dossier, une date, une pathologie rare, un service, un âge précis ou une combinaison d’informations.

La distinction est importante : une base anonymisée n’est plus censée permettre d’identifier une personne. Une base pseudonymisée remplace l’identité par un code, mais la ré-identification reste possible avec une table de correspondance ou par recoupement. En pratique, beaucoup de bases de thèse médicale sont pseudonymisées, pas anonymisées.

Cet article s’inscrit dans la section Recueil de données du guide complet de la thèse de médecine. Il complète les articles sur les démarches CNIL en thèse de médecine, le choix de l’outil de recueil et la préparation du tableur de thèse.

La réponse courte

Pour une thèse médicale, partez de cette règle pratique :

  • si vous pouvez retrouver le patient avec une table de correspondance, la base est pseudonymisée ;
  • si quelqu’un peut raisonnablement reconnaître un patient par recoupement, la base n’est pas anonymisée ;
  • si la base contient des données de santé pseudonymisées, elle reste soumise aux règles sur les données personnelles ;
  • si les données sont vraiment anonymisées, la ré-identification doit être impossible en pratique et de façon irréversible.

La bonne stratégie n’est donc pas de déclarer trop vite que la base est anonyme. La bonne stratégie consiste à réduire les identifiants, séparer ce qui permet de ré-identifier, limiter les accès, sécuriser le stockage et valider le cadre localement.

Anonymisation et pseudonymisation : ne pas confondre

La CNIL définit l’anonymisation comme un traitement qui rend impossible, en pratique, toute identification de la personne, par quelque moyen que ce soit et de manière irréversible. Elle insiste aussi sur le fait que l’anonymisation ne doit pas être confondue avec la pseudonymisation.

La pseudonymisation remplace les données directement identifiantes par un code, un numéro ou un alias. Elle réduit le risque, mais elle ne supprime pas toujours le caractère personnel de la donnée.

SituationTerme le plus probablePourquoi
Nom et prénom remplacés par id_patient = 001, avec table de correspondance conservéePseudonymisationLa ré-identification reste possible
Numéro IPP conservé dans la baseDonnée personnelle, pas anonymiséeL’IPP peut permettre de retrouver le patient
Dates exactes, âge, service rare et diagnostic rare conservésDonnées potentiellement ré-identifiantesLe recoupement peut suffire
Base agrégée par tranches d’âge et grands groupes, sans code individuelPotentiellement anonymiséeÀ vérifier selon le risque réel de ré-identification
Base individuelle avec un code unique par patient, sans nomPseudonymisée le plus souventL’individualisation reste possible

Dans une thèse, la pseudonymisation est souvent le bon objectif opérationnel pendant le recueil et l’analyse. La vraie anonymisation est plus difficile, surtout si vous devez compléter les dossiers, vérifier des incohérences ou chaîner plusieurs sources.

Identifier les données qui ré-identifient

Avant de modifier la base, listez les données qui peuvent identifier un patient directement ou indirectement.

Identifiants directs

Ce sont les éléments qui désignent clairement une personne.

Exemples :

  • nom ;
  • prénom ;
  • numéro de sécurité sociale ;
  • numéro de dossier patient ;
  • IPP ou identifiant permanent patient ;
  • adresse ;
  • téléphone ;
  • email ;
  • photographie ;
  • signature ;
  • identifiant de compte ;
  • identifiant de questionnaire nominatif.

Ces informations n’ont généralement pas leur place dans la base d’analyse. Si elles sont nécessaires pour retrouver les dossiers pendant le recueil, elles doivent être gérées séparément.

Identifiants indirects

Ce sont les éléments qui ne désignent pas seuls une personne, mais peuvent permettre de la reconnaître par combinaison.

Exemples :

  • date de naissance complète ;
  • date exacte de consultation ou d’hospitalisation ;
  • commune de résidence ;
  • service très spécialisé ;
  • pathologie rare ;
  • acte rare ;
  • âge extrême ;
  • profession rare ;
  • médecin référent ;
  • centre unique avec petit effectif ;
  • date de décès ;
  • commentaire libre contenant des détails.

Dans une thèse, le risque vient souvent de la combinaison : âge précis + date précise + diagnostic rare + petit centre.

Construire une table de correspondance propre

Si vous devez revenir aux dossiers pendant le recueil, vous aurez besoin d’un lien entre le patient réel et le code utilisé dans la base.

La solution pratique est une table de correspondance séparée.

Exemple :

id_etudeippnomprénomdate_naissance
T001123456DupontJean1948-03-12
T002789012MartinAlice1962-09-04

La base d’analyse, elle, ne doit contenir que id_etude et les variables nécessaires.

Exemple :

id_etudeagesexegroupedelai_prise_en_charge_hcomplication
T00177MA3.4non
T00263FB1.2oui

La table de correspondance doit être :

  • séparée de la base d’analyse ;
  • stockée dans un emplacement validé ;
  • accessible uniquement aux personnes autorisées ;
  • protégée par des droits d’accès adaptés ;
  • supprimée ou archivée selon les règles validées à la fin du projet ;
  • jamais envoyée inutilement à un tiers.

Le but est simple : permettre le recueil quand c’est nécessaire, sans faire circuler les identifiants directs dans tous les fichiers.

Que faire des dates ?

Les dates sont très utiles pour la recherche, mais elles peuvent aussi ré-identifier.

Avant de conserver une date exacte, demandez-vous ce que vous voulez mesurer.

Besoin scientifiqueVariable souvent suffisante
Âge au diagnosticâge en années ou classes d’âge
Délai entre admission et traitementdélai en heures ou jours
Durée d’hospitalisationnombre de jours
Période de prise en chargeannée, trimestre ou mois
Avant/après changement de protocolegroupe avant / après
Suivi à 30 joursévénement oui/non à J30

Si vous n’avez pas besoin de la date exacte, ne la gardez pas dans la base d’analyse.

Exemples :

  • remplacer date_naissance par age_annees ;
  • remplacer date_admission et date_sortie par duree_sejour_jours ;
  • remplacer date_traitement par delai_traitement_heures ;
  • remplacer date_consultation par annee_consultation ou periode.

Dans certaines études, les dates exactes sont indispensables : analyse de délais, suivi, réhospitalisation, chaînage entre sources. Dans ce cas, elles doivent être conservées dans le cadre validé, avec accès limité.

Réduire les variables rares

Une variable rare peut rendre une personne reconnaissable.

Exemples :

  • patient de 101 ans ;
  • pathologie extrêmement rare ;
  • acte exceptionnel ;
  • grossesse chez une patiente très jeune dans un petit centre ;
  • profession très spécifique ;
  • commune de résidence peu peuplée ;
  • combinaison de plusieurs comorbidités rares.

Solutions possibles :

  • regrouper les âges extrêmes : 90 ans et plus ;
  • regrouper les diagnostics rares par famille ;
  • utiliser une région plutôt qu’une commune ;
  • éviter les professions trop détaillées ;
  • ne pas publier de tableaux avec des cellules trop faibles ;
  • supprimer les commentaires libres non indispensables ;
  • relire les extraits textuels avant toute citation.

Ces choix doivent rester compatibles avec la question scientifique. Anonymiser ou réduire trop fortement peut rendre la base inutilisable. Le bon niveau dépend du protocole.

Nettoyer les commentaires libres

Les champs libres sont risqués. Ils peuvent contenir des informations que vous n’aviez pas prévu de recueillir :

  • nom d’un patient ;
  • nom d’un médecin ;
  • nom d’un établissement ;
  • date exacte ;
  • événement très reconnaissable ;
  • citation de compte rendu ;
  • détail familial ou social identifiant.

Si une information peut être codée, codez-la.

Exemple :

Mauvaise pratiqueMeilleure pratique
commentaire = patient vu par Dr X après accident survenu au mariage de sa fillecontexte_accident = evenement_familial si vraiment utile
motif_exclusion = dossier de Mme Martin incompletmotif_exclusion = dossier_incomplet
cause = décès le 12/03/2025 après transfert à l’hôpital Yvariables séparées et nécessaires uniquement

Dans une base quantitative de thèse, les commentaires libres doivent être rares et justifiés.

Pseudonymiser ne remplace pas les démarches CNIL

La pseudonymisation est une mesure de sécurité utile. Elle ne transforme pas automatiquement la base en données anonymes.

La CNIL indique que les données pseudonymisées restent des données personnelles lorsque la ré-identification reste possible. Les obligations liées au RGPD et au cadre de la recherche continuent donc à s’appliquer.

En pratique, si votre base contient des données de santé pseudonymisées :

  • le protocole doit décrire les données recueillies ;
  • le responsable du traitement doit être identifié localement ;
  • le DPO ou la structure de recherche doit être sollicité selon le circuit prévu ;
  • l’inscription au registre, la MR-004, la MR-003 ou un autre cadre doit être discuté selon le projet ;
  • les personnes concernées doivent être informées selon les modalités validées ;
  • les accès et le stockage doivent être maîtrisés.

Le point important : ce n’est pas parce que vous remplacez les noms par des numéros que vous pouvez utiliser librement la base.

Pour le cadre général, référez-vous à l’article sur la thèse de médecine et les démarches CNIL. Pour une étude sur dossiers déjà existants, l’article sur la thèse rétrospective détaille les questions à poser avant l’extraction.

Sécuriser la base pendant le recueil

La sécurité ne se limite pas à retirer les noms.

La CNIL publie un guide de la sécurité des données personnelles, qui rappelle notamment l’importance de limiter les accès, gérer les habilitations, protéger les postes de travail, sécuriser les sauvegardes et tracer les incidents.

Pour une thèse, retenez les points pratiques suivants :

  • ne stockez pas la base sur un ordinateur personnel sans validation ;
  • évitez les clés USB non chiffrées ;
  • évitez les envois de fichiers sensibles par email classique ;
  • utilisez un espace institutionnel validé quand il existe ;
  • limitez les personnes ayant accès à la base ;
  • séparez la table de correspondance de la base d’analyse ;
  • ne partagez jamais plus de données que nécessaire ;
  • supprimez les copies inutiles ;
  • gardez une trace des versions importantes.

Si vous devez transmettre une base à un statisticien, un méthodologiste ou un autre service, faites valider le circuit. Même pseudonymisée, une base de données de santé peut rester une donnée personnelle.

Exemple de transformation d’une base

Base brute à éviter dans un fichier d’analyse :

nomprénomippdate_naissancedate_hospitdiagnosticcommentaire
DupontJean1234561948-03-122025-02-04pneumonievu par Dr X, transfert depuis EHPAD Y

Base pseudonymisée plus adaptée :

id_etudeagesexeannee_hospitdiagnostic_groupeprovenance_ehpadduree_sejour_j
T00177M2025infection_respiratoireoui8

Table de correspondance séparée :

id_etudeippnomprénom
T001123456DupontJean

Cette transformation n’est pas une anonymisation stricte si la table de correspondance existe encore. Elle réduit le risque et rend la base d’analyse plus sûre, mais elle doit rester dans le cadre validé.

Erreurs fréquentes

Dire “anonymisé” parce que le nom a été retiré

Retirer le nom est nécessaire, mais souvent insuffisant. Les dates, les identifiants hospitaliers, les diagnostics rares et les commentaires libres peuvent encore ré-identifier.

Garder l’IPP dans la base d’analyse

L’IPP est pratique pour retrouver un dossier, mais il ne devrait pas circuler dans la base utilisée pour les analyses si un identifiant d’étude suffit.

Mettre la table de correspondance dans le même fichier

Si l’onglet correspondance est dans le même classeur que la base d’analyse, la séparation est faible. Il vaut mieux séparer les fichiers et les accès.

Conserver toutes les dates “au cas où”

Les dates exactes sont souvent très identifiantes. Transformez-les en âges, délais ou périodes si cela suffit pour répondre à la question.

Envoyer la base à plusieurs personnes sans cadre clair

Chaque transmission augmente le risque. Avant d’envoyer, vérifiez qui a besoin de quoi, dans quel cadre, par quel canal et pour combien de temps.

Publier des tableaux trop détaillés

Même si la base de travail est bien protégée, les résultats publiés peuvent révéler des informations si les sous-groupes sont trop petits ou trop spécifiques.

Checklist avant analyse

Avant de lancer les statistiques, vérifiez que :

  • les identifiants directs ont été retirés de la base d’analyse ;
  • un identifiant d’étude remplace l’identité ;
  • la table de correspondance est séparée ;
  • l’accès à la table de correspondance est limité ;
  • les dates exactes inutiles ont été transformées ;
  • les variables rares ont été regroupées si nécessaire ;
  • les commentaires libres ont été supprimés ou nettoyés ;
  • les valeurs manquantes sont codées clairement ;
  • le dictionnaire des variables est à jour ;
  • le lieu de stockage est validé ;
  • les personnes ayant accès à la base sont identifiées ;
  • le cadre CNIL, registre, MR-003 ou MR-004 a été discuté localement ;
  • les fichiers inutiles ou anciennes versions sont supprimés ou archivés selon les règles prévues.

Si la base est déjà constituée et que vous hésitez sur son format, commencez par vérifier la structure avec l’article sur la préparation du tableur de recueil et les règles de valeurs manquantes dans un tableur.

Questions fréquentes

Quelle différence entre anonymisation et pseudonymisation dans une thèse médicale ?

L’anonymisation rend impossible l’identification d’une personne de façon irréversible. La pseudonymisation remplace l’identité par un code, mais une ré-identification reste possible avec une information séparée ou par recoupement. La plupart des bases de thèse sont donc pseudonymisées, pas anonymisées.

Une base avec des numéros de patients est-elle anonymisée ?

Non, pas forcément. Si chaque patient garde un code unique et qu’une table de correspondance ou des informations indirectes permettent de retrouver son identité, la base reste pseudonymisée. Elle reste donc soumise aux règles sur les données personnelles.

Faut-il garder une table de correspondance dans une thèse ?

Seulement si elle est nécessaire, par exemple pour compléter le recueil, vérifier une donnée ou chaîner plusieurs sources. Elle doit être séparée de la base d’analyse, protégée et accessible uniquement aux personnes autorisées.

Peut-on envoyer une base pseudonymisée à un statisticien ?

Cela doit être validé dans le cadre du projet. Même pseudonymisée, une base de données de santé reste une donnée personnelle si une ré-identification est possible. L’accès, le transfert et le stockage doivent être prévus avec les interlocuteurs compétents.

Comment gérer les dates dans une base de thèse médicale ?

Si les dates exactes ne sont pas indispensables, remplacez-les par des âges, délais, durées, mois ou années. Si elles sont nécessaires, gardez-les uniquement dans le cadre validé et évitez les dates identifiantes inutiles.

Rédaction et responsabilité éditoriale

Dr Jeremy Pasco

Médecin de santé publique, statisticien, méthodologiste et développeur des outils de these-medecine.fr.

these-medecine.fr est un service développé par PRAXLR SAS, entreprise fondée par deux médecins pour accélérer les pratiques et la recherche dans le monde médical.

Qui sommes-nous