Anonymiser ou pseudonymiser une base de thèse médicale : méthode pratique
Une méthode concrète pour distinguer anonymisation et pseudonymisation, construire une base de thèse médicale plus sûre et éviter les erreurs fréquentes.
Dans une thèse de médecine, on parle souvent d’une base “anonymisée” dès que le nom et le prénom ont été retirés. C’est rarement exact. Une base sans nom peut encore permettre de reconnaître un patient par un numéro de dossier, une date, une pathologie rare, un service, un âge précis ou une combinaison d’informations.
La distinction est importante : une base anonymisée n’est plus censée permettre d’identifier une personne. Une base pseudonymisée remplace l’identité par un code, mais la ré-identification reste possible avec une table de correspondance ou par recoupement. En pratique, beaucoup de bases de thèse médicale sont pseudonymisées, pas anonymisées.
Cet article s’inscrit dans la section Recueil de données du guide complet de la thèse de médecine. Il complète les articles sur les démarches CNIL en thèse de médecine, le choix de l’outil de recueil et la préparation du tableur de thèse.
La réponse courte
Pour une thèse médicale, partez de cette règle pratique :
- si vous pouvez retrouver le patient avec une table de correspondance, la base est pseudonymisée ;
- si quelqu’un peut raisonnablement reconnaître un patient par recoupement, la base n’est pas anonymisée ;
- si la base contient des données de santé pseudonymisées, elle reste soumise aux règles sur les données personnelles ;
- si les données sont vraiment anonymisées, la ré-identification doit être impossible en pratique et de façon irréversible.
La bonne stratégie n’est donc pas de déclarer trop vite que la base est anonyme. La bonne stratégie consiste à réduire les identifiants, séparer ce qui permet de ré-identifier, limiter les accès, sécuriser le stockage et valider le cadre localement.
Anonymisation et pseudonymisation : ne pas confondre
La CNIL définit l’anonymisation comme un traitement qui rend impossible, en pratique, toute identification de la personne, par quelque moyen que ce soit et de manière irréversible. Elle insiste aussi sur le fait que l’anonymisation ne doit pas être confondue avec la pseudonymisation.
La pseudonymisation remplace les données directement identifiantes par un code, un numéro ou un alias. Elle réduit le risque, mais elle ne supprime pas toujours le caractère personnel de la donnée.
| Situation | Terme le plus probable | Pourquoi |
|---|---|---|
Nom et prénom remplacés par id_patient = 001, avec table de correspondance conservée | Pseudonymisation | La ré-identification reste possible |
| Numéro IPP conservé dans la base | Donnée personnelle, pas anonymisée | L’IPP peut permettre de retrouver le patient |
| Dates exactes, âge, service rare et diagnostic rare conservés | Données potentiellement ré-identifiantes | Le recoupement peut suffire |
| Base agrégée par tranches d’âge et grands groupes, sans code individuel | Potentiellement anonymisée | À vérifier selon le risque réel de ré-identification |
| Base individuelle avec un code unique par patient, sans nom | Pseudonymisée le plus souvent | L’individualisation reste possible |
Dans une thèse, la pseudonymisation est souvent le bon objectif opérationnel pendant le recueil et l’analyse. La vraie anonymisation est plus difficile, surtout si vous devez compléter les dossiers, vérifier des incohérences ou chaîner plusieurs sources.
Identifier les données qui ré-identifient
Avant de modifier la base, listez les données qui peuvent identifier un patient directement ou indirectement.
Identifiants directs
Ce sont les éléments qui désignent clairement une personne.
Exemples :
- nom ;
- prénom ;
- numéro de sécurité sociale ;
- numéro de dossier patient ;
- IPP ou identifiant permanent patient ;
- adresse ;
- téléphone ;
- email ;
- photographie ;
- signature ;
- identifiant de compte ;
- identifiant de questionnaire nominatif.
Ces informations n’ont généralement pas leur place dans la base d’analyse. Si elles sont nécessaires pour retrouver les dossiers pendant le recueil, elles doivent être gérées séparément.
Identifiants indirects
Ce sont les éléments qui ne désignent pas seuls une personne, mais peuvent permettre de la reconnaître par combinaison.
Exemples :
- date de naissance complète ;
- date exacte de consultation ou d’hospitalisation ;
- commune de résidence ;
- service très spécialisé ;
- pathologie rare ;
- acte rare ;
- âge extrême ;
- profession rare ;
- médecin référent ;
- centre unique avec petit effectif ;
- date de décès ;
- commentaire libre contenant des détails.
Dans une thèse, le risque vient souvent de la combinaison : âge précis + date précise + diagnostic rare + petit centre.
Construire une table de correspondance propre
Si vous devez revenir aux dossiers pendant le recueil, vous aurez besoin d’un lien entre le patient réel et le code utilisé dans la base.
La solution pratique est une table de correspondance séparée.
Exemple :
| id_etude | ipp | nom | prénom | date_naissance |
|---|---|---|---|---|
| T001 | 123456 | Dupont | Jean | 1948-03-12 |
| T002 | 789012 | Martin | Alice | 1962-09-04 |
La base d’analyse, elle, ne doit contenir que id_etude et les variables nécessaires.
Exemple :
| id_etude | age | sexe | groupe | delai_prise_en_charge_h | complication |
|---|---|---|---|---|---|
| T001 | 77 | M | A | 3.4 | non |
| T002 | 63 | F | B | 1.2 | oui |
La table de correspondance doit être :
- séparée de la base d’analyse ;
- stockée dans un emplacement validé ;
- accessible uniquement aux personnes autorisées ;
- protégée par des droits d’accès adaptés ;
- supprimée ou archivée selon les règles validées à la fin du projet ;
- jamais envoyée inutilement à un tiers.
Le but est simple : permettre le recueil quand c’est nécessaire, sans faire circuler les identifiants directs dans tous les fichiers.
Que faire des dates ?
Les dates sont très utiles pour la recherche, mais elles peuvent aussi ré-identifier.
Avant de conserver une date exacte, demandez-vous ce que vous voulez mesurer.
| Besoin scientifique | Variable souvent suffisante |
|---|---|
| Âge au diagnostic | âge en années ou classes d’âge |
| Délai entre admission et traitement | délai en heures ou jours |
| Durée d’hospitalisation | nombre de jours |
| Période de prise en charge | année, trimestre ou mois |
| Avant/après changement de protocole | groupe avant / après |
| Suivi à 30 jours | événement oui/non à J30 |
Si vous n’avez pas besoin de la date exacte, ne la gardez pas dans la base d’analyse.
Exemples :
- remplacer
date_naissanceparage_annees; - remplacer
date_admissionetdate_sortieparduree_sejour_jours; - remplacer
date_traitementpardelai_traitement_heures; - remplacer
date_consultationparannee_consultationouperiode.
Dans certaines études, les dates exactes sont indispensables : analyse de délais, suivi, réhospitalisation, chaînage entre sources. Dans ce cas, elles doivent être conservées dans le cadre validé, avec accès limité.
Réduire les variables rares
Une variable rare peut rendre une personne reconnaissable.
Exemples :
- patient de 101 ans ;
- pathologie extrêmement rare ;
- acte exceptionnel ;
- grossesse chez une patiente très jeune dans un petit centre ;
- profession très spécifique ;
- commune de résidence peu peuplée ;
- combinaison de plusieurs comorbidités rares.
Solutions possibles :
- regrouper les âges extrêmes :
90 ans et plus; - regrouper les diagnostics rares par famille ;
- utiliser une région plutôt qu’une commune ;
- éviter les professions trop détaillées ;
- ne pas publier de tableaux avec des cellules trop faibles ;
- supprimer les commentaires libres non indispensables ;
- relire les extraits textuels avant toute citation.
Ces choix doivent rester compatibles avec la question scientifique. Anonymiser ou réduire trop fortement peut rendre la base inutilisable. Le bon niveau dépend du protocole.
Nettoyer les commentaires libres
Les champs libres sont risqués. Ils peuvent contenir des informations que vous n’aviez pas prévu de recueillir :
- nom d’un patient ;
- nom d’un médecin ;
- nom d’un établissement ;
- date exacte ;
- événement très reconnaissable ;
- citation de compte rendu ;
- détail familial ou social identifiant.
Si une information peut être codée, codez-la.
Exemple :
| Mauvaise pratique | Meilleure pratique |
|---|---|
commentaire = patient vu par Dr X après accident survenu au mariage de sa fille | contexte_accident = evenement_familial si vraiment utile |
motif_exclusion = dossier de Mme Martin incomplet | motif_exclusion = dossier_incomplet |
cause = décès le 12/03/2025 après transfert à l’hôpital Y | variables séparées et nécessaires uniquement |
Dans une base quantitative de thèse, les commentaires libres doivent être rares et justifiés.
Pseudonymiser ne remplace pas les démarches CNIL
La pseudonymisation est une mesure de sécurité utile. Elle ne transforme pas automatiquement la base en données anonymes.
La CNIL indique que les données pseudonymisées restent des données personnelles lorsque la ré-identification reste possible. Les obligations liées au RGPD et au cadre de la recherche continuent donc à s’appliquer.
En pratique, si votre base contient des données de santé pseudonymisées :
- le protocole doit décrire les données recueillies ;
- le responsable du traitement doit être identifié localement ;
- le DPO ou la structure de recherche doit être sollicité selon le circuit prévu ;
- l’inscription au registre, la MR-004, la MR-003 ou un autre cadre doit être discuté selon le projet ;
- les personnes concernées doivent être informées selon les modalités validées ;
- les accès et le stockage doivent être maîtrisés.
Le point important : ce n’est pas parce que vous remplacez les noms par des numéros que vous pouvez utiliser librement la base.
Pour le cadre général, référez-vous à l’article sur la thèse de médecine et les démarches CNIL. Pour une étude sur dossiers déjà existants, l’article sur la thèse rétrospective détaille les questions à poser avant l’extraction.
Sécuriser la base pendant le recueil
La sécurité ne se limite pas à retirer les noms.
La CNIL publie un guide de la sécurité des données personnelles, qui rappelle notamment l’importance de limiter les accès, gérer les habilitations, protéger les postes de travail, sécuriser les sauvegardes et tracer les incidents.
Pour une thèse, retenez les points pratiques suivants :
- ne stockez pas la base sur un ordinateur personnel sans validation ;
- évitez les clés USB non chiffrées ;
- évitez les envois de fichiers sensibles par email classique ;
- utilisez un espace institutionnel validé quand il existe ;
- limitez les personnes ayant accès à la base ;
- séparez la table de correspondance de la base d’analyse ;
- ne partagez jamais plus de données que nécessaire ;
- supprimez les copies inutiles ;
- gardez une trace des versions importantes.
Si vous devez transmettre une base à un statisticien, un méthodologiste ou un autre service, faites valider le circuit. Même pseudonymisée, une base de données de santé peut rester une donnée personnelle.
Exemple de transformation d’une base
Base brute à éviter dans un fichier d’analyse :
| nom | prénom | ipp | date_naissance | date_hospit | diagnostic | commentaire |
|---|---|---|---|---|---|---|
| Dupont | Jean | 123456 | 1948-03-12 | 2025-02-04 | pneumonie | vu par Dr X, transfert depuis EHPAD Y |
Base pseudonymisée plus adaptée :
| id_etude | age | sexe | annee_hospit | diagnostic_groupe | provenance_ehpad | duree_sejour_j |
|---|---|---|---|---|---|---|
| T001 | 77 | M | 2025 | infection_respiratoire | oui | 8 |
Table de correspondance séparée :
| id_etude | ipp | nom | prénom |
|---|---|---|---|
| T001 | 123456 | Dupont | Jean |
Cette transformation n’est pas une anonymisation stricte si la table de correspondance existe encore. Elle réduit le risque et rend la base d’analyse plus sûre, mais elle doit rester dans le cadre validé.
Erreurs fréquentes
Dire “anonymisé” parce que le nom a été retiré
Retirer le nom est nécessaire, mais souvent insuffisant. Les dates, les identifiants hospitaliers, les diagnostics rares et les commentaires libres peuvent encore ré-identifier.
Garder l’IPP dans la base d’analyse
L’IPP est pratique pour retrouver un dossier, mais il ne devrait pas circuler dans la base utilisée pour les analyses si un identifiant d’étude suffit.
Mettre la table de correspondance dans le même fichier
Si l’onglet correspondance est dans le même classeur que la base d’analyse, la séparation est faible. Il vaut mieux séparer les fichiers et les accès.
Conserver toutes les dates “au cas où”
Les dates exactes sont souvent très identifiantes. Transformez-les en âges, délais ou périodes si cela suffit pour répondre à la question.
Envoyer la base à plusieurs personnes sans cadre clair
Chaque transmission augmente le risque. Avant d’envoyer, vérifiez qui a besoin de quoi, dans quel cadre, par quel canal et pour combien de temps.
Publier des tableaux trop détaillés
Même si la base de travail est bien protégée, les résultats publiés peuvent révéler des informations si les sous-groupes sont trop petits ou trop spécifiques.
Checklist avant analyse
Avant de lancer les statistiques, vérifiez que :
- les identifiants directs ont été retirés de la base d’analyse ;
- un identifiant d’étude remplace l’identité ;
- la table de correspondance est séparée ;
- l’accès à la table de correspondance est limité ;
- les dates exactes inutiles ont été transformées ;
- les variables rares ont été regroupées si nécessaire ;
- les commentaires libres ont été supprimés ou nettoyés ;
- les valeurs manquantes sont codées clairement ;
- le dictionnaire des variables est à jour ;
- le lieu de stockage est validé ;
- les personnes ayant accès à la base sont identifiées ;
- le cadre CNIL, registre, MR-003 ou MR-004 a été discuté localement ;
- les fichiers inutiles ou anciennes versions sont supprimés ou archivés selon les règles prévues.
Si la base est déjà constituée et que vous hésitez sur son format, commencez par vérifier la structure avec l’article sur la préparation du tableur de recueil et les règles de valeurs manquantes dans un tableur.
Questions fréquentes
Quelle différence entre anonymisation et pseudonymisation dans une thèse médicale ?
L’anonymisation rend impossible l’identification d’une personne de façon irréversible. La pseudonymisation remplace l’identité par un code, mais une ré-identification reste possible avec une information séparée ou par recoupement. La plupart des bases de thèse sont donc pseudonymisées, pas anonymisées.
Une base avec des numéros de patients est-elle anonymisée ?
Non, pas forcément. Si chaque patient garde un code unique et qu’une table de correspondance ou des informations indirectes permettent de retrouver son identité, la base reste pseudonymisée. Elle reste donc soumise aux règles sur les données personnelles.
Faut-il garder une table de correspondance dans une thèse ?
Seulement si elle est nécessaire, par exemple pour compléter le recueil, vérifier une donnée ou chaîner plusieurs sources. Elle doit être séparée de la base d’analyse, protégée et accessible uniquement aux personnes autorisées.
Peut-on envoyer une base pseudonymisée à un statisticien ?
Cela doit être validé dans le cadre du projet. Même pseudonymisée, une base de données de santé reste une donnée personnelle si une ré-identification est possible. L’accès, le transfert et le stockage doivent être prévus avec les interlocuteurs compétents.
Comment gérer les dates dans une base de thèse médicale ?
Si les dates exactes ne sont pas indispensables, remplacez-les par des âges, délais, durées, mois ou années. Si elles sont nécessaires, gardez-les uniquement dans le cadre validé et évitez les dates identifiantes inutiles.