Pour notre deuxième journée de congrès belge, nous avons assisté à l’intervention d’un membre de la Société Royale Belge de statistiques. Devant des articles qui présentent des erreurs (la présentation n’est pas optimale ou biaisée ; l’interprétation n’est pas correcte, pas complète ou pas assez prudente), des spécialistes se sont dit que former les journalistes à choisir et commenter correctement les résultats serait une bonne idée. Ils ont rencontré une très forte adhésion chez des journalistes.
Voici les sources des exemples traités pendant l’intervention :

Sur cet exemple, on ne tient pas compte de la densité de population.

On ne sait pas non plus si les relevés ont été effectués à la même date. De plus, les choix de couleurs ne sont pas pertinents car peu lisibles. Bien que le graphique soit correct, le nombre total de personnes radicalisées n’est pas toujours un bon indicateur de l’ampleur de la radicalisation d’une région.

Un biais très fréquent est de comparer le nombre de cas bruts selon la caractère étudié, au lieu de comparer des taux, de façon relative, avec une base commune.
Voici un autre exemple :

Ici, on ne tient pas compte de la densité de population. Il faut aussi tenir compte des âges des habitants (pour le taux de vaccination aussi, d’ailleurs : les communes habitées par beaucoup de personnes âgées sont plus vaccinées, logiquement). Les différents territoires n’étaient pas non plus au même stade de l’épidémie.
Enfin, la technique de comptage est très différente d’un pays à l’autre, à cause de décisions de méthodologie différentes ou de volonté politique différente, du nombre de tests disponibles. D’ailleurs, au Royaume-Uni, en août 2020, la méthode de comptage a été modifée en cours de route, ce qui a tout changé à la communication sur le covid.
Il faut donc éviter de comparer ce qui n’est pas comparable, et être nuancé, voire, idéalement, « ne rien dire » (sic). Les raccourcis, les titres accrocheurs, les calculs simplistes, donnent de fausses informations aux lecteurs.
Cet exemple présente une belle contradiction entre le titre et le dévelloppement qui suit :

On confond moyenne générale et moyenne d’un groupe. Le titre semble indiquer que tous les ménages belges (100%) ont perdu 1626€ pendant la crise du covid.
Un exemple spécial anti-vax :

Si on regarde le fameux rapport, on voit que le problème est un problème de structure de population, de répartitions en groupes et sous-groupes. Cela change l’effet ; c’est le paradoxe de Simpson, très connu mais aussi très ignoré :



En plus, on s’intéresse ici aux cas détectés, pas à l’ensemble de la population. Ces valeurs concernent les personnes testées positives, ce qui change tout.
Même quand les calculs sont justes, il faut les contextualiser, comme avec le taux de positivité :


Et nous lisons ceci, nous nous insurgeons sur le fait que les femmes sont sous-représentées quat aux noms de rues, mais en fait beaucoup de rues ne portent pas un nom de personne : la rue des lilas ou la rue de la paix modifient l’interprétation…


Ici, la base est mal choisie :

Et voici un joli graphique, à gauche celui publié (sans axe des ordonnées, tiens tiens) et à droite le graphique corrigé :

Une des questions qui se posent est celle de la volonté éditoriale : qu’est-ce qui relève de la maladresse, de l’erreur, ou de la volonté, voire de la pression exercée sur les journalistes. On leur demande souvent de simplifier, par exemple. Mais on est vite en déséquilibre vers l’erreur, quand on simplifie, et c’est délicat.
Finalement, on en revient à la question de fond : ne faudrait-il pas faire confiance à l’intelligence des lecteurs, former le citoyen à comprendre ? On progresserait dans le niveau de civilisation…
Il existe des olympiades européennes de statistiques. On peut inscrire des équipes sur Statbel.
[…] Site du blog – Intégralité de l’article […]
[…] des journalistes doit comprendre l’utilisation raisonnée des données. Comme en Belgique, il faudrait les […]