Comprendre p-value, IC95, OR, RR et HR dans une thèse de médecine

Une explication concrète des indicateurs statistiques les plus fréquents en thèse de médecine : p-value, IC95, OR, RR et HR, avec exemples et erreurs à éviter.

Dans une thèse de médecine, les résultats statistiques finissent souvent par se résumer à quelques sigles : p, IC95, OR, RR, HR. Le risque est de les lire trop vite : “p < 0,05 donc c’est important”, “OR = 2 donc le risque est doublé”, “IC95 qui croise 1 donc il n’y a rien”.

Ces raccourcis sont fréquents, mais ils peuvent conduire à des interprétations fausses. Une p-value ne mesure pas l’importance clinique. Un IC95 parle autant de précision que de significativité. Un OR n’est pas toujours un risque relatif. Un HR ne se lit pas comme une simple proportion.

Cet article s’inscrit dans la section Statistiques du guide complet de la thèse de médecine. Il explique comment comprendre p-value, IC95, OR, RR et HR dans une thèse, puis comment les utiliser avec prudence dans les résultats et la discussion.

La réponse courte

Pour interpréter un résultat statistique, ne commencez pas par la p-value seule.

Posez quatre questions :

  1. Quelle est l’estimation ? Différence, OR, RR, HR, moyenne, proportion.
  2. Quelle est son amplitude ? Effet faible, important, plausible cliniquement.
  3. Quelle est son incertitude ? Largeur de l’IC95.
  4. Quelle est la p-value ? Résultat compatible ou non avec le seuil choisi.

Exemple :

OR = 1,80 ; IC95 % 1,10 à 2,95 ; p = 0,02

Lecture prudente :

  • l’association estimée est en faveur d’une augmentation des odds ;
  • l’intervalle de confiance est assez large ;
  • le résultat est statistiquement significatif au seuil de 5 % ;
  • il faut encore discuter la plausibilité clinique, les biais et les facteurs de confusion.

La p-value : ce qu’elle dit vraiment

La p-value répond à une question précise : si l’hypothèse nulle était vraie, les données observées seraient-elles surprenantes dans le cadre du test utilisé ?

Dans beaucoup de thèses, l’hypothèse nulle correspond à :

  • pas de différence entre deux groupes ;
  • pas d’association entre une exposition et un événement ;
  • pas de variation avant/après ;
  • pas d’effet d’un facteur dans un modèle.

Une p-value faible indique que les données sont peu compatibles avec cette hypothèse nulle, sous les hypothèses du test.

Ce que la p-value ne dit pas

La p-value ne dit pas :

  • que l’hypothèse nulle est fausse avec certitude ;
  • que le résultat est cliniquement important ;
  • que l’étude est bien conduite ;
  • que l’association est causale ;
  • que le résultat est reproductible ;
  • que le risque d’erreur est exactement égal à la p-value ;
  • qu’un résultat non significatif prouve l’absence d’effet.

Exemple :

Différence de durée d’hospitalisation = 0,3 jour ; p < 0,001

Ce résultat peut être statistiquement significatif dans une très grande base, mais cliniquement peu utile si la différence est minime.

À l’inverse :

Différence de mortalité = 8 points ; p = 0,08

Ce résultat n’est pas significatif au seuil de 5 %, mais il peut rester cliniquement préoccupant si l’étude est petite ou imprécise.

Le seuil de 0,05 : une convention, pas une frontière magique

Le seuil p < 0,05 est une convention très utilisée. Il ne transforme pas un résultat en vérité.

Comparer ces deux résultats :

RésultatLecture trop rapideLecture plus prudente
p = 0,049“c’est significatif”résultat juste sous le seuil, à interpréter avec l’effet et l’IC95
p = 0,051“ce n’est pas significatif”résultat juste au-dessus du seuil, pas forcément très différent du précédent

Dans une thèse, il vaut mieux écrire :

Le résultat était statistiquement significatif au seuil de 5 %.

plutôt que :

Le résultat était prouvé.

Et pour un résultat non significatif :

Aucune différence statistiquement significative n’a été mise en évidence.

plutôt que :

Il n’y avait aucune différence.

L’IC95 : comprendre la précision du résultat

L’intervalle de confiance à 95 %, ou IC95, donne une plage de valeurs compatibles avec les données, dans le cadre du modèle statistique utilisé.

Il aide à répondre à deux questions :

  • quelle est la précision de l’estimation ?
  • quelles valeurs restent plausibles ?

Exemple :

Différence moyenne = 4,2 jours ; IC95 % 1,1 à 7,3

Lecture :

  • l’estimation centrale est une différence de 4,2 jours ;
  • l’incertitude va environ de 1,1 à 7,3 jours ;
  • l’effet pourrait être modéré ou important ;
  • l’intervalle ne contient pas 0, ce qui est généralement cohérent avec une p-value < 0,05 pour une différence.

Pour une différence, la valeur d’absence d’effet est 0.

Pour un ratio comme OR, RR ou HR, la valeur d’absence d’effet est 1.

Type de résultatValeur d’absence d’effet
Différence de moyennes0
Différence de proportions0
OR1
RR1
HR1

IC95 large ou étroit : pourquoi cela compte

Deux résultats peuvent avoir la même estimation, mais une précision très différente.

RésultatLecture
OR = 2,0 ; IC95 % 1,8 à 2,2estimation précise
OR = 2,0 ; IC95 % 0,8 à 5,1estimation imprécise

Dans le deuxième cas, l’estimation centrale est la même, mais l’incertitude est beaucoup plus grande. Le vrai effet compatible avec les données pourrait être faible, important, voire absent au seuil habituel.

Un IC95 large peut venir :

  • d’un petit effectif ;
  • d’un nombre faible d’événements ;
  • de données très variables ;
  • d’un modèle trop complexe ;
  • de sous-groupes trop petits ;
  • de données manquantes.

La largeur de l’IC95 est souvent plus informative que la p-value seule.

OR : odds ratio

L’odds ratio, ou OR, compare des odds entre deux groupes.

En français, on traduit parfois odds par “cote”. Ce n’est pas exactement un risque.

Si un événement survient chez 20 patients sur 100 :

  • le risque est 20 / 100 = 0,20 ;
  • les odds sont 20 / 80 = 0,25, c’est-à-dire événements / non-événements.

Un OR supérieur à 1 indique que les odds de l’événement sont plus élevées dans le groupe exposé. Un OR inférieur à 1 indique qu’elles sont plus faibles.

Exemple :

OR = 2,40 ; IC95 % 1,30 à 4,50

Lecture :

Les odds de l’événement étaient estimées 2,4 fois plus élevées dans le groupe exposé que dans le groupe non exposé.

Formulation prudente dans une thèse :

L’exposition était associée à une augmentation des odds de complication.

Évitez :

L’exposition multipliait le risque par 2,4.

Cette phrase confond OR et risque relatif.

Pourquoi utiliser un OR si le RR est plus parlant ?

On peut se demander pourquoi utiliser un OR alors que le RR est plus intuitif. La réponse courte : quand le risque peut être directement estimé, le RR est souvent plus facile à comprendre. Mais l’OR reste utile dans certaines situations.

Dans une étude cas-témoins, par exemple, le nombre de cas et de témoins est fixé par le plan d’étude. On ne peut donc pas estimer directement un risque réel dans la population étudiée. L’OR devient alors l’indicateur naturel pour étudier l’association entre une exposition et l’événement.

L’OR est aussi le résultat habituel d’une régression logistique, très utilisée quand le critère de jugement est binaire : complication oui/non, décès oui/non, réhospitalisation oui/non. Ce modèle permet d’ajuster l’association sur plusieurs facteurs comme l’âge, le sexe, la gravité ou les comorbidités.

Cela ne veut pas dire que l’OR est toujours préférable. Si l’étude permet de calculer un RR ou une différence absolue de risque, ces indicateurs sont souvent plus lisibles pour le lecteur. Et si l’événement est fréquent, il faut éviter de présenter l’OR comme un risque relatif.

En pratique :

IndicateurQuand il est utileLecture
RRCohorte, essai, comparaison directe de risquesPlus intuitif pour le lecteur
ORÉtude cas-témoins, régression logistique, modèle ajusté avec critère binaireUtile, mais à ne pas présenter comme un risque
Différence absolue de risqueQuand les risques sont disponiblesSouvent la plus parlante cliniquement

RR : risque relatif

Le risque relatif, ou RR, compare deux risques.

Exemple :

GroupeÉvénementTotalRisque
Exposé3010030 %
Non exposé1510015 %

Le RR vaut :

RR = 30 % / 15 % = 2,0

Lecture :

Le risque d’événement était deux fois plus élevé chez les patients exposés que chez les patients non exposés.

Le RR est plus intuitif que l’OR, car il compare directement des probabilités. Il est fréquent dans les cohortes, les essais ou certaines études observationnelles où le risque peut être estimé.

Attention : le RR ne dit pas tout. Il faut aussi regarder le risque absolu.

Exemple :

SituationRisque non exposéRisque exposéRR
A1 %2 %2,0
B20 %40 %2,0

Le RR est identique, mais l’impact absolu n’est pas le même. Dans la situation A, la différence absolue est de 1 point. Dans la situation B, elle est de 20 points.

HR : hazard ratio

Le hazard ratio, ou HR, est utilisé dans les analyses de survie ou d’événement au cours du temps.

Exemples :

  • délai jusqu’au décès ;
  • délai jusqu’à récidive ;
  • délai jusqu’à réhospitalisation ;
  • temps jusqu’à complication ;
  • survie sans progression.

Le HR compare des hazards, c’est-à-dire des vitesses instantanées de survenue de l’événement au cours du suivi. En pratique, on le lit souvent comme une comparaison du rythme de survenue de l’événement entre deux groupes, sous les hypothèses du modèle.

Exemple :

HR = 0,70 ; IC95 % 0,52 à 0,94 ; p = 0,02

Lecture prudente :

Le groupe traité présentait une vitesse de survenue de l’événement plus faible que le groupe comparateur pendant le suivi.

Évitez :

Le traitement réduit le risque de 30 % dans tous les cas.

Cette formulation peut être trop forte, surtout si l’hypothèse de risques proportionnels n’est pas discutée ou si l’étude est observationnelle.

Comment savoir si l’effet va dans le bon sens ?

Pour OR, RR et HR :

  • 1 signifie absence d’association ;
  • une valeur supérieure à 1 indique une association dans le sens d’une augmentation de l’événement étudié ;
  • une valeur inférieure à 1 indique une association dans le sens d’une diminution de l’événement étudié.

Mais tout dépend de la manière dont l’événement est codé.

Exemple :

  • si l’événement est complication, OR > 1 signifie plus de complications ;
  • si l’événement est guérison, OR > 1 signifie plus de guérisons.

Avant d’interpréter, vérifiez toujours :

  • quel est l’événement modélisé ;
  • quel est le groupe de référence ;
  • quelles variables ont été ajustées ;
  • si le résultat est brut ou ajusté.

Résultat brut ou ajusté

Un OR, RR ou HR peut être brut ou ajusté.

Un résultat brut compare deux groupes sans tenir compte d’autres variables.

Un résultat ajusté provient d’un modèle statistique qui tient compte de certaines variables : âge, sexe, gravité, comorbidités, centre, période, etc.

Exemple :

OR brut = 2,10 ; IC95 % 1,30 à 3,40
OR ajusté = 1,25 ; IC95 % 0,72 à 2,10

Lecture :

  • l’association semblait forte en analyse brute ;
  • après ajustement, elle devient plus faible et plus incertaine ;
  • une partie de l’association brute était peut-être expliquée par les facteurs d’ajustement.

Dans le manuscrit, précisez toujours si l’estimation est brute ou ajustée, et sur quelles variables l’ajustement porte.

Exemples de formulations dans une thèse

RésultatFormulation prudente
p = 0,03Une différence statistiquement significative a été observée au seuil de 5 %.
p = 0,18Aucune différence statistiquement significative n’a été mise en évidence.
OR = 1,82 ; IC95 % 1,12 à 2,96L’exposition était associée à une augmentation des odds de l’événement.
RR = 0,75 ; IC95 % 0,60 à 0,93Le risque d’événement était plus faible dans le groupe exposé.
HR = 1,40 ; IC95 % 0,95 à 2,08Le résultat suggère une vitesse de survenue plus élevée, mais l’IC95 contient 1.
Différence = -4,5 jours ; IC95 % -8,0 à -1,2La durée était estimée plus courte de 4,5 jours en moyenne.

Les SAMPL guidelines et les recommandations de l’ICMJE vont dans le même sens : ne pas réduire les résultats à des p-values, mais présenter les estimations utiles avec des indicateurs d’incertitude comme les intervalles de confiance lorsque c’est possible.

Pour la mise en forme des résultats dans le manuscrit, vous pouvez aussi consulter le guide sur la présentation des résultats d’une thèse de médecine.

Erreurs fréquentes

Confondre significatif et important

Un résultat peut être statistiquement significatif mais cliniquement peu important. L’importance dépend de l’amplitude de l’effet, du contexte, du bénéfice attendu, des risques, du coût et de la population.

Dire qu’un résultat non significatif prouve l’absence d’effet

Un résultat non significatif peut venir d’un effet absent, mais aussi d’un petit effectif, d’une mesure imprécise ou d’une étude insuffisamment puissante.

Interpréter un OR comme un RR

Un OR n’est pas un risque relatif. Cette confusion est fréquente, surtout quand l’événement est fréquent.

Oublier le sens du codage

Si vous ne savez pas quel groupe est la référence ou quel événement est modélisé, vous pouvez inverser l’interprétation.

Comparer seulement les p-values

Deux études peuvent avoir des p-values différentes parce que les effectifs, la précision ou la variabilité diffèrent. Comparez les estimations et les IC95, pas seulement les seuils.

Ignorer les intervalles de confiance larges

Un résultat avec un IC95 très large doit être interprété avec prudence, même si l’estimation centrale paraît impressionnante.

Checklist avant de rédiger les résultats

Avant d’écrire la partie Résultats ou Discussion, vérifiez :

  • l’estimation principale est clairement identifiée ;
  • le type d’estimation est nommé : différence, OR, RR, HR ;
  • le groupe de référence est explicite ;
  • l’événement analysé est clair ;
  • les résultats ajustés sont distingués des résultats bruts ;
  • les IC95 sont présentés pour les estimations importantes ;
  • la p-value n’est pas le seul élément d’interprétation ;
  • les résultats non significatifs ne sont pas présentés comme une absence certaine d’effet ;
  • l’importance clinique est discutée séparément de la significativité statistique ;
  • les limites de puissance, biais et confusion sont discutées si nécessaire.

Si votre analyse produit des OR, RR, HR ou modèles ajustés et que vous ne savez pas les expliquer simplement, demandez un avis. La page statistiques de thèse : les faire soi-même ou demander de l’aide peut vous aider à décider.

Questions fréquentes

Une p-value inférieure à 0,05 prouve-t-elle qu’un résultat est important ?

Non. Une p-value inférieure à 0,05 indique un résultat statistiquement significatif selon un seuil choisi, mais elle ne mesure ni l’importance clinique, ni la taille de l’effet, ni la qualité de l’étude. Il faut regarder l’estimation, l’IC95, les biais possibles et la cohérence clinique.

Que signifie un IC95 qui contient 1 pour un OR, RR ou HR ?

Pour un ratio comme OR, RR ou HR, la valeur 1 correspond à l’absence d’association. Si l’IC95 contient 1, le résultat est généralement compatible avec une absence d’association statistiquement significative au seuil de 5 %. Cela ne prouve pas qu’il n’existe aucun effet.

Quelle différence entre OR et RR ?

Le RR compare des risques ou probabilités. L’OR compare des odds, c’est-à-dire des cotes. Quand l’événement est rare, les deux peuvent être proches. Quand l’événement est fréquent, l’OR peut donner une impression d’effet plus forte que le RR.

Quand utilise-t-on un HR dans une thèse de médecine ?

Le HR est utilisé dans les analyses de survie ou de délai jusqu’à événement, par exemple délai avant décès, récidive, réhospitalisation ou complication. Il compare des vitesses de survenue au cours du temps, sous les hypothèses du modèle utilisé.

Faut-il toujours présenter p-value et IC95 ensemble ?

Quand une estimation est importante, il est préférable de présenter l’estimation avec son IC95, et la p-value si elle répond à la question. L’IC95 aide à comprendre la précision et l’incertitude du résultat, ce que la p-value seule ne permet pas.

Rédaction et responsabilité éditoriale

Dr Jeremy Pasco

Médecin de santé publique, statisticien, méthodologiste et développeur des outils de these-medecine.fr.

these-medecine.fr est un service développé par PRAXLR SAS, entreprise fondée par deux médecins pour accélérer les pratiques et la recherche dans le monde médical.

Qui sommes-nous