Comment renseigner les valeurs manquantes dans un tableur de thèse ?

Une méthode pour distinguer les données non disponibles, non concernées et non encore recherchées dans un tableur de recueil de thèse.

Lors d’un recueil de données de thèse, il est fréquent de ne pas pouvoir renseigner toutes les variables prévues. L’erreur classique consiste à laisser la cellule vide en se disant que “ça se comprendra plus tard”.

En réalité, une cellule vide peut vouloir dire plusieurs choses : la donnée n’a pas encore été cherchée, elle est introuvable, le patient n’est pas concerné, l’examen n’a pas été réalisé, le prélèvement est inutilisable, ou le questionnaire n’a pas été complété.

L’objectif de cet article est de vous aider à coder les valeurs manquantes dans un tableur de thèse de manière simple, explicite et compatible avec l’analyse. Il complète l’article sur la préparation du tableur de recueil et s’inscrit dans la section recueil de données du guide complet de la thèse de médecine.

Pourquoi ne pas laisser les cellules vides ?

Pendant le recueil, une cellule vide doit avoir une seule signification : la donnée n’a pas encore été recherchée ou saisie.

Si vous laissez aussi vides les données introuvables ou non applicables, vous perdez le suivi de votre travail. À la fin du recueil, vous ne saurez plus si une cellule vide correspond à :

  • une donnée que vous devez encore chercher ;
  • une donnée cherchée mais non retrouvée ;
  • une variable qui ne concerne pas ce patient ;
  • une réponse que le participant a refusé de donner ;
  • un résultat d’examen non encore reçu ;
  • un simple oubli de saisie.

Coder les valeurs manquantes sert donc d’abord à piloter le recueil. Cela permet de savoir ce qui reste à faire, ce qui est réellement absent et ce qui ne doit pas être recherché.

Les trois situations à distinguer

1. Non concerné : NC

Une valeur NC signifie que le sujet n’est pas concerné par la variable.

Exemple : vous recueillez deux variables :

  • irm_realisee ;
  • taille_tumeur_mm.

Si l’IRM n’a pas été réalisée, le patient n’est pas concerné par la variable taille_tumeur_mm. Vous pouvez donc renseigner NC dans cette cellule, à condition que la variable irm_realisee indique clairement non.

Exemple de valeur NC dans un tableur de recueil

Le point important est de ne pas utiliser NC pour masquer une information que vous n’avez pas encore cherchée. NC doit correspondre à une non-applicabilité réelle, définie par le protocole ou par une variable précédente.

2. Non disponible : ND

Une valeur ND signifie que la donnée concerne le sujet, mais qu’elle n’est pas disponible.

Exemples :

  • l’information n’est pas renseignée dans le dossier patient ;
  • le compte rendu est illisible ;
  • le résultat biologique n’est pas retrouvé ;
  • le patient n’a pas pu être recontacté ;
  • une réponse de questionnaire manque alors que la question s’appliquait au participant.
Exemple de valeur ND dans un tableur de recueil

Dans ce cas, ND évite de confondre une vraie absence d’information avec une cellule non encore traitée.

3. Non encore recherché : cellule vide

Pendant le recueil, vous pouvez garder une cellule vide pour signaler une donnée non encore recherchée ou non encore saisie.

C’est l’intérêt principal de la convention : toutes les cellules vides restantes correspondent à du travail à faire. Une fois la variable vérifiée, la cellule doit contenir soit une valeur, soit un code explicite.

En pratique :

SituationExempleCodage possible
La valeur est trouvéeHémoglobine à 13,2 g/dL13.2
La donnée concerne le patient mais est introuvableRésultat absent du dossierND
La variable ne concerne pas le patientTaille tumorale sans imagerie réaliséeNC
La donnée n’a pas encore été cherchéeDossier pas encore relucellule vide

Faut-il utiliser ND, NC, NA ou NR ?

Il n’existe pas une convention universelle obligatoire pour un tableur de thèse. L’essentiel est de choisir une convention claire, documentée et constante.

Une convention minimale peut suffire :

CodeSignificationÀ utiliser quand
NDnon disponiblela donnée concerne le sujet mais n’a pas été retrouvée
NCnon concernéla variable ne s’applique pas à ce sujet
cellule videnon encore recherchéla donnée reste à vérifier pendant le recueil

Vous verrez aussi NA, notamment dans R où NA désigne classiquement une valeur manquante. Le problème est que NA peut être compris comme Not Available ou comme Non Applicable. Ce n’est pas interdit, mais cela doit être défini sans ambiguïté.

Dans un questionnaire, NR est parfois utilisé pour “non renseigné” ou “non répondu”. Là encore, ce code est acceptable si sa signification est claire.

La règle pratique : ne multipliez pas les codes sans raison. Mais si vous créez des codes, définissez-les dans un dictionnaire des variables.

Peut-on créer des codes plus précis ?

Oui. Dans certains projets, distinguer seulement ND et NC est trop grossier. La raison de l’absence peut avoir une valeur méthodologique ou clinique.

Exemples de codes plus précis :

CodeSignification possibleExemple
HEMprélèvement hémolysépotassium non interprétable
REFUSrefus de répondrequestion sensible dans un questionnaire
PERDUperdu de vuesuivi à 6 mois impossible
NON_FAITexamen non réaliséscanner non prescrit
NON_RECUrésultat non reçuprélèvement envoyé mais résultat absent
ILLISIBLEinformation illisibledossier papier ou compte rendu scanné

Cette précision peut être utile pour :

  • décrire la qualité du recueil ;
  • expliquer pourquoi certaines analyses portent sur moins de sujets ;
  • construire un diagramme de flux ;
  • distinguer une absence liée au soin d’une absence liée au recueil ;
  • discuter un biais potentiel dans le manuscrit.

Mais elle a un coût : plus les codes sont nombreux, plus le recueil devient fragile. Un code ajouté doit répondre à une vraie question. Sinon, il complique le tableur sans améliorer l’analyse.

Comment structurer le tableur ?

La structure la plus robuste dépend du niveau de détail nécessaire.

Option simple : un code dans la cellule

Pour une thèse simple, vous pouvez renseigner directement ND ou NC dans la cellule concernée.

id_patientirm_realiseetaille_tumeur_mm
001oui34
002nonNC
003ouiND

Cette option est facile à tenir. Elle convient si vous n’avez pas besoin d’analyser finement les raisons de l’absence.

Option enrichie : une colonne de raison d’absence

Si la raison de l’absence est importante, séparez la valeur et la raison.

id_patientpotassium_mmol_lpotassium_absence_raison
0014.2NC
002HEM
003NON_RECU

Cette option est plus propre pour l’analyse, car potassium_mmol_l reste une variable numérique. La raison est stockée dans une colonne catégorielle séparée.

Dans les deux cas, documentez vos codes dans une feuille dictionnaire_variables, comme pour les autres variables du tableur. L’article sur la préparation d’un tableur de recueil de thèse détaille cette logique.

Que faire avant l’analyse statistique ?

Les codes de valeurs manquantes sont utiles pendant le recueil. Mais ils ne doivent pas être laissés sans réflexion au moment de l’analyse.

Si vous laissez ND, NC, HEM ou NON_RECU dans une colonne numérique, certains logiciels risquent de considérer toute la colonne comme du texte. Vous ne pourrez alors pas calculer correctement une moyenne, une médiane ou un test statistique.

Avant l’analyse, il faut donc décider comment traiter ces codes :

  • les déclarer comme valeurs manquantes lors de l’import ;
  • les recoder en valeurs manquantes dans une copie d’analyse ;
  • conserver une variable séparée pour la raison de l’absence ;
  • exclure certaines lignes d’une analyse précise si elles ne sont pas concernées ;
  • analyser séparément les raisons d’absence si elles ont un intérêt.

Un outil comme TablR permet d’importer des fichiers tabulaires en précisant les codes à considérer comme valeurs manquantes. C’est utile si votre tableur contient des notations comme ND, NC ou d’autres codes définis dans votre dictionnaire.

Le point important : ne détruisez pas l’information dans le fichier de recueil. Si vous devez remplacer les codes par des cellules vides ou par des valeurs manquantes reconnues par un logiciel, faites-le dans une copie dédiée à l’analyse.

Et SmallBox dans tout ça ?

TableurMaker servait à générer des tableurs de recueil. Il sera remplacé par SmallBox, un outil en cours de conception.

L’idée de ce type d’outil est de préparer un tableur plus robuste dès le départ : variables structurées, formats attendus, codes de valeurs manquantes et dictionnaire plus explicite. Cela ne remplace pas la réflexion méthodologique, mais cela peut éviter des erreurs de saisie fréquentes.

En attendant, vous pouvez appliquer les mêmes principes manuellement dans Excel, LibreOffice Calc, Google Sheets ou l’outil validé pour votre projet. Si votre thèse utilise des données de santé, vérifiez aussi les contraintes de stockage et d’accès avant de choisir l’outil de recueil.

Checklist pratique

Avant de commencer votre recueil, vérifiez ces points :

  • une cellule vide signifie “non encore recherché” ;
  • ND signifie “donnée non disponible” ;
  • NC signifie “non concerné” ;
  • chaque code ajouté a une raison claire ;
  • les codes sont listés dans le dictionnaire des variables ;
  • les colonnes numériques ne mélangent pas inutilement chiffres et texte ;
  • une copie d’analyse sera créée avant recodage ;
  • les codes de valeurs manquantes seront déclarés ou transformés avant les statistiques.

Si vous n’avez pas encore construit votre fichier, commencez par préparer votre tableur de recueil. Si le choix de l’outil n’est pas encore clair, revenez à l’article sur le choix de l’outil de recueil.

Questions fréquentes

Faut-il laisser une cellule vide quand une donnée est manquante ?

Pendant le recueil, il vaut mieux éviter les cellules vides. Une cellule vide doit plutôt signifier que la donnée n’a pas encore été recherchée ou saisie.

Une fois la donnée vérifiée, renseignez une valeur, ND, NC ou un autre code défini dans votre convention.

Quelle différence entre ND et NC dans un tableur de thèse ?

ND signifie que la donnée concerne le sujet mais n’est pas disponible. NC signifie que le sujet n’est pas concerné par cette variable, par exemple parce qu’un examen n’a pas été réalisé.

Peut-on créer ses propres codes de valeurs manquantes ?

Oui, si ces codes apportent une information utile. Ils doivent rester peu nombreux, être définis dans le dictionnaire des variables et être utilisés de façon constante.

Les codes ND, NC ou HEM posent-ils problème pour l’analyse statistique ?

Ils peuvent poser problème s’ils sont laissés tels quels dans une colonne numérique. Avant l’analyse, il faut les déclarer comme valeurs manquantes, les recoder ou séparer la valeur attendue de la raison d’absence.

Faut-il garder la raison de la donnée manquante ?

Oui quand cette raison peut aider à interpréter la qualité du recueil ou les résultats. Sinon, une convention simple ND/NC peut suffire.