Comment renseigner les valeurs manquantes dans un tableur de thèse ?

Q: Quelle différence entre ND et NC dans un tableur de thèse ?

ND signifie que la donnée concerne le sujet mais n’est pas disponible. NC signifie que le sujet n’est pas concerné par cette variable, par exemple parce qu’un examen n’a pas été réalisé.

Une méthode pour distinguer les données non disponibles, non concernées et non encore recherchées dans un tableur de recueil de thèse.

Lors d’un recueil de données de thèse, il est fréquent de ne pas pouvoir renseigner toutes les variables prévues. L’erreur classique consiste à laisser la cellule vide en se disant que “ça se comprendra plus tard”.

En réalité, une cellule vide peut vouloir dire plusieurs choses : la donnée n’a pas encore été cherchée, elle est introuvable, le patient n’est pas concerné, l’examen n’a pas été réalisé, le prélèvement est inutilisable, ou le questionnaire n’a pas été complété.

L’objectif de cet article est de vous aider à coder les valeurs manquantes dans un tableur de thèse de manière simple, explicite et compatible avec l’analyse. Il complète l’article sur la préparation du tableur de recueil et s’inscrit dans la section recueil de données du guide complet de la thèse de médecine.

Pourquoi ne pas laisser les cellules vides ?

Pendant le recueil, une cellule vide doit avoir une seule signification : la donnée n’a pas encore été recherchée ou saisie.

Si vous laissez aussi vides les données introuvables ou non applicables, vous perdez le suivi de votre travail. À la fin du recueil, vous ne saurez plus si une cellule vide correspond à :

une donnée que vous devez encore chercher ;
une donnée cherchée mais non retrouvée ;
une variable qui ne concerne pas ce patient ;
une réponse que le participant a refusé de donner ;
un résultat d’examen non encore reçu ;
un simple oubli de saisie.

Coder les valeurs manquantes sert donc d’abord à piloter le recueil. Cela permet de savoir ce qui reste à faire, ce qui est réellement absent et ce qui ne doit pas être recherché.

Les trois situations à distinguer

1. Non concerné : `NC`

Une valeur NC signifie que le sujet n’est pas concerné par la variable.

Exemple : vous recueillez deux variables :

irm_realisee ;
taille_tumeur_mm.

Si l’IRM n’a pas été réalisée, le patient n’est pas concerné par la variable taille_tumeur_mm. Vous pouvez donc renseigner NC dans cette cellule, à condition que la variable irm_realisee indique clairement non.

Exemple de valeur NC dans un tableur de recueil

Le point important est de ne pas utiliser NC pour masquer une information que vous n’avez pas encore cherchée. NC doit correspondre à une non-applicabilité réelle, définie par le protocole ou par une variable précédente.

2. Non disponible : `ND`

Une valeur ND signifie que la donnée concerne le sujet, mais qu’elle n’est pas disponible.

Exemples :

l’information n’est pas renseignée dans le dossier patient ;
le compte rendu est illisible ;
le résultat biologique n’est pas retrouvé ;
le patient n’a pas pu être recontacté ;
une réponse de questionnaire manque alors que la question s’appliquait au participant.

Exemple de valeur ND dans un tableur de recueil

Dans ce cas, ND évite de confondre une vraie absence d’information avec une cellule non encore traitée.

3. Non encore recherché : cellule vide

Pendant le recueil, vous pouvez garder une cellule vide pour signaler une donnée non encore recherchée ou non encore saisie.

C’est l’intérêt principal de la convention : toutes les cellules vides restantes correspondent à du travail à faire. Une fois la variable vérifiée, la cellule doit contenir soit une valeur, soit un code explicite.

En pratique :

Situation	Exemple	Codage possible
La valeur est trouvée	Hémoglobine à 13,2 g/dL	`13.2`
La donnée concerne le patient mais est introuvable	Résultat absent du dossier	`ND`
La variable ne concerne pas le patient	Taille tumorale sans imagerie réalisée	`NC`
La donnée n’a pas encore été cherchée	Dossier pas encore relu	cellule vide

Faut-il utiliser `ND`, `NC`, `NA` ou `NR` ?

Il n’existe pas une convention universelle obligatoire pour un tableur de thèse. L’essentiel est de choisir une convention claire, documentée et constante.

Une convention minimale peut suffire :

Code	Signification	À utiliser quand
`ND`	non disponible	la donnée concerne le sujet mais n’a pas été retrouvée
`NC`	non concerné	la variable ne s’applique pas à ce sujet
cellule vide	non encore recherché	la donnée reste à vérifier pendant le recueil

Vous verrez aussi NA, notamment dans R où NA désigne classiquement une valeur manquante. Le problème est que NA peut être compris comme Not Available ou comme Non Applicable. Ce n’est pas interdit, mais cela doit être défini sans ambiguïté.

Dans un questionnaire, NR est parfois utilisé pour “non renseigné” ou “non répondu”. Là encore, ce code est acceptable si sa signification est claire.

La règle pratique : ne multipliez pas les codes sans raison. Mais si vous créez des codes, définissez-les dans un dictionnaire des variables.

Peut-on créer des codes plus précis ?

Oui. Dans certains projets, distinguer seulement ND et NC est trop grossier. La raison de l’absence peut avoir une valeur méthodologique ou clinique.

Exemples de codes plus précis :

Code	Signification possible	Exemple
`HEM`	prélèvement hémolysé	potassium non interprétable
`REFUS`	refus de répondre	question sensible dans un questionnaire
`PERDU`	perdu de vue	suivi à 6 mois impossible
`NON_FAIT`	examen non réalisé	scanner non prescrit
`NON_RECU`	résultat non reçu	prélèvement envoyé mais résultat absent
`ILLISIBLE`	information illisible	dossier papier ou compte rendu scanné

Cette précision peut être utile pour :

décrire la qualité du recueil ;
expliquer pourquoi certaines analyses portent sur moins de sujets ;
construire un diagramme de flux ;
distinguer une absence liée au soin d’une absence liée au recueil ;
discuter un biais potentiel dans le manuscrit.

Mais elle a un coût : plus les codes sont nombreux, plus le recueil devient fragile. Un code ajouté doit répondre à une vraie question. Sinon, il complique le tableur sans améliorer l’analyse.

Comment structurer le tableur ?

La structure la plus robuste dépend du niveau de détail nécessaire.

Option simple : un code dans la cellule

Pour une thèse simple, vous pouvez renseigner directement ND ou NC dans la cellule concernée.

id_patient	irm_realisee	taille_tumeur_mm
001	oui	34
002	non	NC
003	oui	ND

Cette option est facile à tenir. Elle convient si vous n’avez pas besoin d’analyser finement les raisons de l’absence.

Option enrichie : une colonne de raison d’absence

Si la raison de l’absence est importante, séparez la valeur et la raison.

id_patient	potassium_mmol_l	potassium_absence_raison
001	4.2	NC
002		HEM
003		NON_RECU

Cette option est plus propre pour l’analyse, car potassium_mmol_l reste une variable numérique. La raison est stockée dans une colonne catégorielle séparée.

Dans les deux cas, documentez vos codes dans une feuille dictionnaire_variables, comme pour les autres variables du tableur. L’article sur la préparation d’un tableur de recueil de thèse détaille cette logique.

Que faire avant l’analyse statistique ?

Les codes de valeurs manquantes sont utiles pendant le recueil. Mais ils ne doivent pas être laissés sans réflexion au moment de l’analyse.

Si vous laissez ND, NC, HEM ou NON_RECU dans une colonne numérique, certains logiciels risquent de considérer toute la colonne comme du texte. Vous ne pourrez alors pas calculer correctement une moyenne, une médiane ou un test statistique.

Avant l’analyse, il faut donc décider comment traiter ces codes :

les déclarer comme valeurs manquantes lors de l’import ;
les recoder en valeurs manquantes dans une copie d’analyse ;
conserver une variable séparée pour la raison de l’absence ;
exclure certaines lignes d’une analyse précise si elles ne sont pas concernées ;
analyser séparément les raisons d’absence si elles ont un intérêt.

Un outil comme TablR permet d’importer des fichiers tabulaires en précisant les codes à considérer comme valeurs manquantes. C’est utile si votre tableur contient des notations comme ND, NC ou d’autres codes définis dans votre dictionnaire.

Le point important : ne détruisez pas l’information dans le fichier de recueil. Si vous devez remplacer les codes par des cellules vides ou par des valeurs manquantes reconnues par un logiciel, faites-le dans une copie dédiée à l’analyse.

Et SmallBox dans tout ça ?

TableurMaker servait à générer des tableurs de recueil. Il sera remplacé par SmallBox, un outil en cours de conception.

L’idée de ce type d’outil est de préparer un tableur plus robuste dès le départ : variables structurées, formats attendus, codes de valeurs manquantes et dictionnaire plus explicite. Cela ne remplace pas la réflexion méthodologique, mais cela peut éviter des erreurs de saisie fréquentes.

En attendant, vous pouvez appliquer les mêmes principes manuellement dans Excel, LibreOffice Calc, Google Sheets ou l’outil validé pour votre projet. Si votre thèse utilise des données de santé, vérifiez aussi les contraintes de stockage et d’accès avant de choisir l’outil de recueil.

Checklist pratique

Avant de commencer votre recueil, vérifiez ces points :

une cellule vide signifie “non encore recherché” ;
ND signifie “donnée non disponible” ;
NC signifie “non concerné” ;
chaque code ajouté a une raison claire ;
les codes sont listés dans le dictionnaire des variables ;
les colonnes numériques ne mélangent pas inutilement chiffres et texte ;
une copie d’analyse sera créée avant recodage ;
les codes de valeurs manquantes seront déclarés ou transformés avant les statistiques.

Si vous n’avez pas encore construit votre fichier, commencez par préparer votre tableur de recueil. Si le choix de l’outil n’est pas encore clair, revenez à l’article sur le choix de l’outil de recueil.

Questions fréquentes

Faut-il laisser une cellule vide quand une donnée est manquante ?

Pendant le recueil, il vaut mieux éviter les cellules vides. Une cellule vide doit plutôt signifier que la donnée n’a pas encore été recherchée ou saisie.

Une fois la donnée vérifiée, renseignez une valeur, ND, NC ou un autre code défini dans votre convention.

Quelle différence entre ND et NC dans un tableur de thèse ?

ND signifie que la donnée concerne le sujet mais n’est pas disponible. NC signifie que le sujet n’est pas concerné par cette variable, par exemple parce qu’un examen n’a pas été réalisé.

Peut-on créer ses propres codes de valeurs manquantes ?

Oui, si ces codes apportent une information utile. Ils doivent rester peu nombreux, être définis dans le dictionnaire des variables et être utilisés de façon constante.

Les codes ND, NC ou HEM posent-ils problème pour l’analyse statistique ?

Ils peuvent poser problème s’ils sont laissés tels quels dans une colonne numérique. Avant l’analyse, il faut les déclarer comme valeurs manquantes, les recoder ou séparer la valeur attendue de la raison d’absence.

Faut-il garder la raison de la donnée manquante ?

Oui quand cette raison peut aider à interpréter la qualité du recueil ou les résultats. Sinon, une convention simple ND/NC peut suffire.

Rédaction et responsabilité éditoriale

Dr Jeremy Pasco

Médecin de santé publique, statisticien, méthodologiste et développeur des outils de these-medecine.fr.

these-medecine.fr est un service développé par PRAXLR SAS, entreprise fondée par deux médecins pour accélérer les pratiques et la recherche dans le monde médical.

Qui sommes-nous