Quel outil choisir pour le recueil de données d’une thèse de médecine ?

Une méthode pour choisir l’outil de recueil adapté à une thèse médicale selon la source des données, les investigateurs, le questionnaire, la réglementation et l’analyse prévue.

Le choix de l’outil de recueil de données conditionne directement la qualité d’une thèse de médecine. Un mauvais outil peut créer des erreurs de saisie, des doublons, des variables inutilisables, des problèmes de confidentialité ou une base impossible à analyser proprement.

Avant d’ouvrir Excel ou de créer un questionnaire en ligne, partez d’une question simple : comment les données vont-elles être produites ? Selon que vous saisissez des dossiers patients, diffusez un questionnaire, utilisez une extraction informatique ou travaillez à plusieurs, l’outil adapté ne sera pas le même.

Cet article s’inscrit dans la section recueil de données du guide complet de la thèse de médecine. Il vous aide à choisir un outil réaliste, exploitable et cohérent avec les contraintes d’une recherche médicale.

Quel outil de recueil de données choisir en pratique ?

Le meilleur outil n’est pas forcément le plus complet. C’est celui qui correspond à votre étude, à votre niveau de risque et aux moyens disponibles dans votre établissement.

Situation	Outil souvent adapté	Point de vigilance
Recueil manuel simple, monocentrique, peu de variables	Tableur préparé avec rigueur	Codage, formats, erreurs de saisie
Plusieurs investigateurs ou recueil complexe	e-CRF, c’est-à-dire cahier d’observation électronique	Accès institutionnel, paramétrage initial
Questionnaire simple sans donnée sensible	Formulaire en ligne validé localement	Doublons, relances, anonymat réel
Questionnaire avec données de santé	Outil institutionnel ou e-CRF	RGPD, c’est-à-dire règlement général sur la protection des données ; information, hébergement, droits d’accès
Données issues d’un logiciel métier	Extraction tabulaire	Dictionnaire des variables, formats, données manquantes
Questionnaire papier	Papier puis saisie contrôlée	Double saisie, numérotation, archivage

Cette table donne une orientation, pas une autorisation. Dès que le recueil implique des données de santé identifiantes ou pseudonymisées, le choix de l’outil doit être discuté avec votre directeur, votre DPO, c’est-à-dire le délégué à la protection des données, votre structure de recherche ou les interlocuteurs désignés par votre établissement.

Commencer par identifier le mode de recueil

Le choix de l’outil dépend d’abord de la manière dont les données seront recueillies.

Dans une thèse médicale, les situations les plus fréquentes sont :

une saisie manuelle par un ou plusieurs investigateurs à partir de dossiers patients ;
un questionnaire diffusé à des patients, soignants, étudiants ou médecins ;
une extraction depuis un logiciel métier, un dossier patient informatisé, un registre ou un entrepôt ;
une combinaison de plusieurs sources, par exemple une extraction complétée par quelques variables saisies à la main.

Cette distinction doit apparaître dans le protocole de thèse de médecine. Elle influence aussi le format des variables, les droits d’accès, les démarches relatives aux données de santé et les analyses statistiques.

Cas 1 : la saisie manuelle par investigateur

Tableur : Excel, LibreOffice Calc ou équivalent

Le tableur reste l’outil le plus utilisé par les thésards. Il est accessible, familier, rapide à créer et facile à transmettre à un statisticien. Pour une petite étude rétrospective, monocentrique, avec peu de variables et un seul investigateur, il peut suffire.

Son principal défaut est aussi sa force : il laisse presque tout faire. Vous pouvez saisir une date sous plusieurs formats, écrire du texte dans une variable numérique, changer l’unité d’une mesure, déplacer une colonne ou vous tromper de ligne. Au moment de l’analyse, ces erreurs peuvent coûter beaucoup de temps.

Un tableur devient particulièrement fragile si :

plusieurs personnes saisissent les données ;
le recueil contient beaucoup de variables ;
les dates, scores ou unités doivent être strictement homogènes ;
certaines variables dépendent de réponses précédentes ;
vous devez tracer qui a modifié quelle donnée ;
la base contient des données sensibles ou identifiantes avec des droits d’accès mal définis.

Si vous choisissez quand même un tableur, construisez-le comme un outil de recueil, pas comme une simple feuille blanche :

une ligne par sujet ;
une colonne par variable ;
un nom court et stable pour chaque variable ;
une feuille de dictionnaire des variables ;
des valeurs codées de manière homogène ;
des formats verrouillés quand c’est possible ;
un système clair pour les valeurs manquantes ;
une sauvegarde régulière et maîtrisée.

Avant de commencer, lisez aussi les erreurs fréquentes à éviter pour préparer un tableur de recueil de thèse. C’est souvent le meilleur investissement de temps avant la première saisie.

Tableur en ligne : Google Sheets ou équivalent

Un tableur en ligne règle un vrai problème : la saisie simultanée par plusieurs personnes. C’est pratique pour suivre l’avancement, éviter les copies de fichiers et travailler à distance.

En revanche, il ne faut pas confondre confort technique et adéquation réglementaire. La CNIL rappelle que les données de santé sont des données personnelles sensibles et particulièrement protégées. Pour une thèse, l’enjeu porte donc sur la nature des données, l’hébergement, les accès, la sécurité, les transferts éventuels et l’information des personnes.

En pratique, n’utilisez pas par défaut un tableur grand public pour des données de santé identifiantes ou pseudonymisées. Faites valider l’outil par les interlocuteurs compétents de votre établissement. Pour approfondir ce point, voir l’article dédié aux démarches CNIL pour une thèse de médecine utilisant des données de santé.

e-CRF : REDCap ou autre solution institutionnelle

Un e-CRF, ou cahier d’observation électronique, est une solution pensée pour recueillir des données d’étude via des formulaires. Contrairement à un tableur, l’outil peut imposer des règles de saisie : format de date, valeurs autorisées, bornes numériques, champs obligatoires, affichage conditionnel.

L’e-CRF est particulièrement utile quand :

plusieurs investigateurs saisissent en parallèle ;
les données sont recueillies en plusieurs temps ;
certaines questions ne doivent apparaître que dans certains cas ;
il faut limiter les erreurs dès la saisie ;
il faut séparer les rôles, les accès et les exports ;
la base doit être plus robuste avant l’analyse.

De nombreux établissements disposent d’une solution interne, parfois REDCap ou un outil équivalent. REDCap est un logiciel diffusé dans un cadre académique et institutionnel ; il ne s’agit pas d’un simple service en ligne à ouvrir individuellement. Le bon réflexe est donc de contacter votre direction de la recherche, votre unité de soutien méthodologique ou l’équipe qui administre les outils de recueil.

L’inconvénient principal est le temps de paramétrage. Pour un recueil très simple, un e-CRF peut sembler lourd. Pour un recueil complexe, ce temps est souvent récupéré ensuite, car la base contient moins d’erreurs et demande moins de nettoyage.

Cas 2 : le questionnaire de thèse

Un questionnaire paraît plus simple qu’un recueil sur dossier. Pourtant, le choix de l’outil est parfois plus délicat, car il dépend à la fois du contenu des questions, du mode de diffusion et du suivi des réponses.

Avant de choisir, vérifiez quatre points :

l’outil permet-il le mode de diffusion souhaité : lien public, emails individualisés, relances, QR code ?
avez-vous besoin de savoir qui a répondu, sans forcément relier l’identité aux réponses ?
les réponses contiennent-elles des données de santé ou d’autres données sensibles ?
le questionnaire doit-il empêcher les réponses multiples ou permettre des rappels ciblés ?

Google Forms

Google Forms est simple, rapide et gratuit. Pour un questionnaire pédagogique, organisationnel ou très peu sensible, il peut rendre service.

Ses limites sont importantes pour une thèse médicale :

la diffusion par lien unique ne permet pas toujours de contrôler les réponses multiples ;
les relances ciblées sont limitées si vous ne gérez pas des invitations individualisées ;
l’anonymat peut être mal compris si des informations indirectement identifiantes sont collectées ;
l’outil ne doit pas être choisi par défaut pour recueillir des données de santé identifiantes ou pseudonymisées.

Le point à retenir : ne décidez pas uniquement en fonction de la facilité de création du formulaire. Si le questionnaire porte sur l’état de santé, la prise en charge, les symptômes, les traitements ou des informations personnelles sensibles, cet outil n’est pas adapté. Dans tous les cas, faites valider l’outil et le cadre de recueil avec votre encadrement avant diffusion.

LimeSurvey

LimeSurvey est une solution plus avancée pour créer et diffuser des questionnaires. Sa documentation décrit notamment la gestion des invitations individualisées, relances et codes uniques, avec différents niveaux d’anonymat selon la configuration.

Pour une thèse, l’intérêt est surtout pratique :

envoyer un lien unique à chaque participant ;
savoir qui n’a pas répondu afin de relancer ;
limiter les réponses multiples ;
séparer, selon les paramètres, les informations de suivi des invitations et les réponses ;
construire des questionnaires plus complexes qu’un formulaire simple.

De nombreux établissements peuvent disposer d’une installation interne ou d’un outil équivalent. C’est ce cadre institutionnel qui compte pour les données sensibles : la version en ligne grand public de Limesurvey ne suffit pas à elle seule à rendre le recueil adapté à des données de santé.

Questionnaire papier

Le papier reste parfois pertinent : consultation, salle d’attente, service hospitalier, population peu à l’aise avec le numérique, ou besoin d’un support remis physiquement.

Il ajoute toutefois une étape risquée : la ressaisie. Pour limiter les erreurs :

numérotez toutes les questions ;
codez les réponses dès le questionnaire ;
évitez les champs libres quand une réponse codée suffit ;
prévoyez une double saisie si le volume ou l’enjeu le justifie ;
conservez une règle claire pour les réponses illisibles ou multiples ;
organisez l’archivage des questionnaires papier selon le cadre validé.

Le questionnaire papier ne dispense pas des questions réglementaires. Si les réponses contiennent des données de santé ou d’autres données sensibles, le support papier doit lui aussi être prévu dans le protocole, l’information des participants et les règles de conservation.

Cas 3 : les données issues d’une extraction

Quand les données viennent d’un logiciel métier, d’un dossier patient informatisé ou d’un entrepôt, vous n’avez pas à tout saisir manuellement. C’est un avantage important : vous réduisez le risque d’erreur de saisie et vous gagnez du temps.

Les extractions sont généralement fournies sous forme de fichier tabulaire :

.csv ;
.xls ou .xlsx ;
parfois un autre format exportable vers un tableur ou un logiciel statistique.

Le sujet n’est alors pas de choisir un outil de saisie, mais de sécuriser la structure du fichier :

une ligne par unité statistique : patient, séjour, consultation ou autre selon l’étude ;
une colonne par variable ;
des noms de variables compréhensibles ;
un dictionnaire décrivant les variables, les unités et les codes ;
des dates dans un format homogène ;
une règle pour les doublons ;
une règle pour les valeurs manquantes.

Si l’extraction doit être complétée manuellement, choisissez dès le départ comment les deux sources seront chaînées. Ne créez pas deux bases indépendantes que vous essaierez de fusionner à la fin. Discutez si besoin avec la personne qui réalisera les analyses, surtout si vous envisagez de faire appel à un expert pour les statistiques de thèse.

Les critères de décision à vérifier avant de commencer

Avant de valider votre outil de recueil, passez cette checklist :

Type de données : données anonymes, pseudonymisées, identifiantes, données de santé, données sensibles.
Nombre d’investigateurs : une seule personne ou plusieurs saisies simultanées.
Complexité du recueil : variables simples, visites répétées, conditions d’affichage, scores, unités.
Contrôle de saisie : valeurs autorisées, bornes numériques, formats, champs obligatoires.
Traçabilité : besoin de savoir qui a saisi ou modifié une donnée.
Export : possibilité de récupérer un fichier exploitable pour les statistiques.
Sécurité : stockage, accès, partage, sauvegarde, droits utilisateurs.
Cadre local : outil validé par l’établissement, DPO, direction de la recherche, promoteur ou université.

Si un seul de ces points est flou, clarifiez-le avant de recueillir les premières données. Modifier l’outil après le début du recueil est toujours possible, mais souvent coûteux.

Les erreurs fréquentes à éviter

Choisir l’outil avant d’avoir défini les variables

L’outil doit servir le protocole. Si vous ne savez pas encore précisément quelles variables sont nécessaires, commencez par clarifier votre objectif, votre critère principal et votre plan d’analyse.

Utiliser un tableur comme espace de réflexion

Un tableur de recueil n’est pas un brouillon. Vous pouvez préparer un brouillon à part, mais la base définitive doit être structurée, stable et documentée.

Confondre anonymisation et pseudonymisation

Remplacer le nom par un numéro ne suffit pas toujours à anonymiser une base. Si une ré-identification reste possible, la base reste concernée par les règles de protection des données personnelles.

Oublier l’export final

Un outil agréable pour saisir peut produire un export difficile à analyser : colonnes fusionnées, réponses multiples mal codées, dates textuelles, libellés longs, variables imbriquées. Faites un test d’export avant le recueil réel.

Attendre la fin pour parler au statisticien

La personne qui analysera les données peut vous éviter des erreurs de structure dès le départ. Un échange de 30 minutes avant le recueil vaut mieux qu’un nettoyage de base impossible en fin de thèse.

En pratique : comment décider ?

Si votre recueil est simple, monocentrique et réalisé par une seule personne, un tableur bien préparé peut être acceptable.

Si le recueil est partagé, long, prospectif, conditionnel ou réglementairement sensible, cherchez plutôt une solution institutionnelle : e-CRF, outil de questionnaire validé, plateforme interne ou accompagnement par une structure de recherche.

Si les données viennent d’une extraction, concentrez-vous sur la qualité du fichier, le dictionnaire des variables et le chaînage avec les données complémentaires.

Dans tous les cas, ne commencez pas le recueil sans avoir testé :

une saisie fictive ;
une correction de donnée ;
un export ;
une lecture de l’export dans un tableur ou un logiciel statistique ;
la gestion des valeurs manquantes.

Cette étape simple révèle la majorité des problèmes avant qu’ils ne touchent les vraies données.

L’étape suivante dépend de votre situation. Si vous partez sur un tableur, préparez d’abord sa structure avec les règles détaillées dans l’article sur les erreurs à éviter avant le recueil. Si votre choix n’est pas encore arrêté, reprenez les ressources de la section recueil de données pour avancer dans l’ordre : outil, tableur, valeurs manquantes, puis analyse.

Questions fréquentes

Peut-on utiliser Excel pour un recueil de données de thèse ?

Oui, si le recueil est simple, limité, bien préparé et idéalement réalisé par une seule personne. Il faut alors verrouiller la structure, coder les variables et anticiper les contrôles de cohérence.

Pour aller plus loin, consultez la méthode pour préparer son tableur de recueil de thèse.

Google Forms ou Google Sheets sont-ils adaptés aux données de santé ?

Ils ne doivent pas être choisis par défaut pour des données de santé identifiantes ou pseudonymisées. L’outil, l’hébergement, les droits d’accès et l’information des participants doivent être validés localement.

Pour comprendre les points à vérifier, lisez l’article sur la CNIL et les données de santé dans une thèse de médecine.

Quand faut-il utiliser un e-CRF ?

Un e-CRF devient pertinent dès que le recueil comporte plusieurs investigateurs, de nombreuses variables, des visites répétées, des règles de saisie ou un besoin de traçabilité.

Quel outil choisir pour un questionnaire de thèse ?

Le bon outil dépend du type de données, du mode de diffusion, du besoin de relance, de l’anonymat attendu et du cadre réglementaire. Un questionnaire sensible doit être discuté avec les interlocuteurs locaux compétents.

Que faire si les données viennent d’une extraction informatique ?

Il faut obtenir un fichier tabulaire propre, conserver un dictionnaire des variables, vérifier les formats et prévoir comment chaîner l’extraction avec les éventuelles données recueillies manuellement.