Le test caché

Dans un pays comptant 250 millions d'habitants, environ 1 habitant sur 1000 souffre d'une maladie M. Un test existe pour la dépister, il est efficace à 95% pour ceux qui présentent la maladie M (ce qui signifie qu'il donne alors un résultat positif dans 95 cas sur 100, mais négatif --- et erroné --- dans 5 cas sur 100), et à 99% pour la population saine (mais là encore, dans 1 cas sur 100 seulement, le résultat du test est positif, et donc incorrect).

Une efficacité impressionnante, et si l'on reçoit un résultat de test positif, il y a de quoi être inquiet ?...

Quoique.

Comptons : sur les 250 millions d'habitants, environ 250 000 sont atteints par M (et 249 750 000 sont sains). Le test donnera un résultat positif pour

95% des malades soit 237 500 personnes, mais aussi...
1% de la population saine soit 2 497 500 personnes,

soit 2 735 000 personnes positives au test.

Le pourcentage de malades parmi les résultats positifs au test (la probabilité de porter M si le test est positif) n'est donc après tout que de

237 500

2 735 000

≃ 8,684× 10⁻²

soit un peu moins de 8,7%...

Voilà qui est rassurant pour les gens qui reçoivent un résultat de test positif, mais comment réconcilier cette constatation avec l'efficacité revendiquée du test ?

Pour interpréter correctement ces remarques, il faut reconnaître que a situation présentée ici recèle en fait un test caché. Ce test consiste à prendre une personne au hasard et à répondre négatif avec une probabilité 0,999. Il peu sembler étrange d'appeler test cette façon de prendre en compte la proportion de population porteuse de M, mais il faut lui reconnaître une efficacité redoutable : en prenant une personne au hasard et en déclarant négatif, la réponse est correcte dans 999 cas sur 1000.

Nous sommes donc en présence de deux test, disons bonTest et mauvaisTest, dont les efficacités sont très éloignées. Si l'on considère une personne qui reçoit un résultat positif au mauvaisTest, mais un résultat négatif au bonTest, nous admettons qu'elle se fasse du souci. Elle préférerait un résultat négatif aux deux tests. Toutefois, le résultat du test le plus précis doit être considéré plus important que celui du test de moindre précision.

C'est à cause de la différence d'efficacité entre ces deux tests qui explique pourquoi la personne envisagée a malgré tout si peu de chances (moins d'une sur 10) d'être atteinte de la maladie M.

Cet exemple illustre la difficulté d'interpréter des données statistiques.

Une variante spectaculaire est le paradoxe de Leslie.

Ces remarques sont adaptées d'après le l'ouvrage d' E. Burger et M. Starbird, The heart of mathematics, Key College Publishing, 2000, pp. 603 sq. Ce livre est présenté sur son site web compagnon.

Le test caché

Sémantique

Logique

Infini

Mesure

Probas

Nombres

Physique