Paradoxes statistiques : pourquoi les chiffres peuvent tromper

18

Les statistiques, malgré leur réputation d’objectivité, peuvent produire des résultats contre-intuitifs qui défient le bon sens. Cela est souvent dû à des paradoxes statistiques, tels que le paradoxe de Simpson, dans lequel une tendance apparaît dans les données agrégées mais s’inverse lorsque les données sont décomposées en sous-groupes. Comprendre ces phénomènes est crucial pour une recherche et une prise de décision précises.

Le cas d’admission à Berkeley

Un exemple célèbre s’est produit dans les années 1970, lorsque l’Université de Californie à Berkeley a été accusée de discrimination fondée sur le sexe lors des admissions aux cycles supérieurs. Les données initiales ont montré un taux d’acceptation inférieur pour les candidatures féminines (35 %) par rapport aux candidats masculins (44 %), ce qui semble indiquer un biais. Cependant, lorsque les admissions sont analysées par département, c’est l’inverse qui se produit : dans quatre grands départements sur six, plus de femmes sont admises que d’hommes.

L’écart est dû au fait que les femmes ont postulé de manière disproportionnée dans des départements plus compétitifs avec des taux d’acceptation globaux plus faibles, tandis que les hommes ont postulé dans des départements avec plus de débouchés et moins de candidats. Cela illustre comment le regroupement peut fausser les tendances sous-jacentes.

Les origines du paradoxe

Le phénomène a été décrit pour la première fois en 1899 par le mathématicien Karl Pearson, puis redécouvert par George Udny Yule en 1903. Cependant, il est resté largement inaperçu jusqu’à ce qu’Edward Simpson le documente officiellement en 1951, prêtant son nom à cet effet. Les travaux de Simpson ont mis en évidence la manière dont les tendances peuvent varier en fonction des divisions des sous-groupes.

Implications dans le monde réel

Ce paradoxe n’est pas seulement théorique. En 2021, les données indiquaient que le COVID-19 était presque deux fois plus mortel en Italie qu’en Chine, malgré le fait que chaque tranche d’âge en Italie avait un taux de survie plus élevé. Cette conclusion apparemment contradictoire démontre à quel point les tendances globales peuvent obscurcir la dynamique des sous-groupes.

Défis de la recherche médicale

Le paradoxe de Simpson présente des défis dans les études médicales, en particulier lors de l’évaluation de l’efficacité des médicaments. Un médicament peut démontrer une efficacité globale, mais s’avérer moins efficace qu’un placebo lorsqu’il est analysé par sous-groupes (par exemple, sexe). La décision d’approuver ou non un tel médicament nécessite un examen attentif : doit-on donner la priorité au résultat global ou les incohérences des sous-groupes doivent-elles susciter des inquiétudes ?

L’approche la plus scientifiquement solide consiste à mener une enquête plus approfondie pour déterminer l’étendue des facteurs de confusion et garantir que les relations causales sont correctement identifiées. Il n’existe pas de raccourci vers une analyse rigoureuse pour démêler les corrélations des effets réels.

En conclusion, le paradoxe de Simpson nous rappelle que les statistiques, bien que puissantes, ne sont pas infaillibles. Une approche critique de l’analyse des données, y compris l’examen des sous-groupes et la prise en compte des influences cachées, est essentielle pour éviter des conclusions trompeuses.