Comment renseigner les valeurs manquantes dans un tableur ?

Lors d’un recueil de données, il est fréquent de ne pas pouvoir renseigner toutes les variables initialement prévues, on parle alors de valeurs manquantes. On s’imagine souvent qu’il suffit de laisser la cellule vide lorsqu’une valeur est manquante. C’est une erreur !

Les types de valeurs manquantes

Il existe plusieurs types de valeurs manquantes qu’il faut savoir distinguer. En voici les 3 principaux :

Les valeurs « non concerné » (NC)

Certaines variables peuvent ne pas concerner tous vos sujets. Par exemple, si votre étude porte sur des patients présentant un diagnostic de cancer et vous souhaitez recueillir des informations sur l’imagerie de leur tumeur (taille, localisation, etc), vous pourriez trouver des patients pour qui l’imagerie n’a pas encore été réalisée. Ceux-ci ne seront pas concernés par le recueil de certaines variables.

À savoir : Renseignez alors « NC » pour « Non Concerné » dans les variables en rapport avec l’imagerie.

Point d’attention : Vous verrez parfois l’usage de « NA » pour Non Applicable, mais cette notation porte à confusion avec « Not Available » (voir les valeurs « Non Disponible »).

Lors de vos analyses, vous pourrez réaliser des statistiques sur la sous-population concernée par l’imagerie en filtrant ceux présentant une valeur « NC » pour ces variables.

Exemple : 

 Ici le sujet n°3 présente une valeur NC pour la taille de sa tumeur, car il n’a pas réalisé l’IRM. Il n’est donc pas concerné par le recueil de la taille de sa tumeur.

Les valeurs « non disponible » (ND)

Il s’agit ici de variables qui concernent votre sujet, mais pour lesquelles vous n’avez pas pu trouver de valeurs. Par exemple :

  • l’information n’est pas renseignée dans le dossier patient ;
  • celle-ci est illisible ;
  • vous n’avez pas réussi à recontacter le patient pour la recueillir.

À savoir : Dans ce cas, renseignez la valeur « ND » pour « Non Disponible« .

Point d’attention : L’usage de « NA » pour « Not Available » est également fréquent, mais peut porter à confusion avec « Non applicable » (voir les valeurs « Non Concerné »).

Dans le cadre d’un questionnaire, il est fréquent de voir « NR » pour « Non Renseigné ». Cette mention revient à dire que la valeur n’est pas disponible.

Exemple : 

Ici le sujet n°1 présente une valeur ND pour la taille de sa tumeur, car il a réalisé l’IRM (il est donc concerné par cette variable) mais la taille de sa tumeur n’a pas été retrouvée.

Les valeurs non saisies

Si vous avez renseigné « NA » ou « ND » lorsque nécessaire, vous pouvez en déduire que les cellules encore vides sont celles qu’il vous reste à recueillir. C’est là tout l’intérêt de cette notation.

À l’inverse, si vous laissez vides toutes les cellules pour lesquelles la valeur est NA ou NC, vous risquez de ne plus savoir où vous en êtes. Une cellule vide pourrait ainsi correspondre à  :

  • une information déjà recherchée, mais introuvable (ND)
  • une information qui ne concerne pas votre sujet (NC)
  • une information non encore recherchée

Pour vous éviter de chercher à plusieurs reprises une même donnée, renseignez ND ou NC lorsque cela est nécessaire.

Aspects pratiques

Quels outils pour le recueil avec valeurs manquantes ?

Certains outils de recueil ne gèrent pas la notion de valeurs manquantes.

Sous Excel, Calc et Number, le renseignement des cellules est libre. Par défaut, vous pourrez renseigner des valeurs telles que NA et NC.

Cependant, il est conseillé de mettre en place des règles de validation sur vos champs afin de réduire le risque de faut de frappe (ex : ajouter une lettre dans le champ âge). Mettre en place une règle autorisant [les valeurs numériques OU la valeur NA OU la valeur NC] peut rapidement devenir un enfer !

Pour vous simplifier la vie, vous pouvez utiliser TableurMaker (outil en cours de refonte) pour la création de votre tableur : celui-ci intègre complètement la notion de valeurs manquantes et vous permet de renseigner la mention ND ou NC en plus de tous ses autres avantages.

Les valeurs manquantes ND/NC ne vont-elles pas poser un problème lors des analyses ?

Les logiciels d’analyse statistique modernes tels que R ou SAS gèrent parfaitement la notion de valeurs manquantes. Si vous faites appel à un statisticien, il y a de grandes chances que cela ne lui pose aucun problème.

Si vous deviez réaliser vous-même vos statistiques et que l’outil de votre choix ne gérait pas ce type de notation, sachez que vous pouvez toujours les supprimer une fois votre recueil terminé. Procédez comme suivant :

  1. Faites une copie de votre tableur afin de conserver une version avec les ND/NC
  2. Ouvrez votre tableur avec Excel ou Calc
  3. Sélectionnez la zone de tableur dans laquelle vous souhaitez supprimer les mentions ND/NC
  4. Pressez CTRL+H, une fenêtre « Rechercher et remplacer » apparaît
  5. Dans le champ « Rechercher », saisissez « ND »
  6. Laissez vide le champ « Remplacer par »
  7. « Cliquez sur Remplacer tout »
  8. Recommencez avec « NC »

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut