Jadis, les sondages d’opinions affichaient fièrement le sceau statistique de qualité qu’est la marge d’erreur. Aujourd’hui, cette marge n’en mène plus large. Les sondeurs peuvent-ils même encore la revendiquer?
Commençons par recadrer la notion de marge d’erreur et retournons dans le temps afin de comprendre les impacts de la technologie sur la cueillette des données.
La marge d’erreur
La marge d’erreur est intimement liée au nombre de répondants et à la notion d’échantillonnage probabiliste (toutes les personnes de la population sondée ont une probabilité connue de faire partie de l’échantillon) [1]. Seulement pour un échantillon probabiliste est-il autorisé, théoriquement, de calculer une marge d’erreur; plus grand sera le nombre de répondants, plus faible sera cette marge. Ceci est établi depuis longtemps, avant même la venue des sondages dits scientifiques dans les années 1930. Le Suisse Jacques Necker, nommé directeur du Trésor royal et ministre des Finances sous Louis XVI, fut un précurseur dans l’idée d’obtenir des estimations, pour une population, à partir d’informations partielles sur cette même population [2].
La cueillette des données
Dans les années 1930-40, les pionniers des sondages étaient les George Gallup, Archibald Crossley, Elmo Roper et Louis Harris. En 1935, il y a presque 90 ans donc, Gallup fonde l’AIPO (American Institute of Public Opinion) alors que trois ans auparavant, son approche dite « scientifique » prédisait les résultats de l’élection de la Secrétaire d’état de l’Iowa (son état natal).
Dans ces années, la cueillette des données se faisait en interrogeant les répondants en personne. La méthodologie montrait souvent certaines faiblesses, mais il reste que des efforts étaient faits pour segmenter, démographiquement, la population afin d’obtenir des échantillons les plus représentatifs possible, ce qui n’était vraiment pas la force des votes de paille [3] populaires au 19e siècle et au début du 20e.
Puis, le téléphone entre dans les résidences jusqu’à être suffisamment présent pour devenir une base acceptable d’échantillonnage probabiliste. Au tournant des années 2000, la téléphonie cellulaire se pointe et, depuis 2010 environ, les téléphones dits intelligents sont aussi répandus que l’étaient les téléphones domiciliaires de l’époque.
Photo : Dominic Bérubé
L’échantillonnage probabiliste écope
Si le téléphone fixe a permis de constituer des échantillons pouvant être considérés probabilistes, la téléphonie cellulaire chamboule tout. Elle remplace la téléphonie traditionnelle, les numéros de téléphone ne sont pas répertoriés et elle modifie considérablement les habitudes de communication. Les textos ou messages vocaux sont préférés aux communications téléphoniques et, pour nombre d’utilisateur-trices, un appel téléphonique prend directement le chemin de la boîte vocale, ce qui est loin de l’enthousiasme d’antan pour les coups de fil !
L’échantillonnage probabiliste est désormais une utopie. La répartition de la téléphonie traditionnelle et cellulaire ne reflète plus la variété des populations sondées alors que la téléphonie cellulaire pose des défis additionnels pour rejoindre les répondants : trouver les numéros, coûts élevés, très faibles taux de réponse, attitudes négatives envers les sondages, etc.
Depuis plus de dix ans, les sondeurs remplacent le téléphone par des panels web. À ne pas confondre avec un simple sondage en ligne, le panel web est une base de répondant-es potentiel-les (des centaines de milliers parfois), constituée selon plusieurs critères de représentativité de la population générale. L’échantillon d’un sondage est formé à partir des membres du panel afin que le profil des répondants corresponde au profil de la population spécifique ciblée par le sondage (sexe, âge, langue maternelle, lieu de résidence, propriétaire ou non de maison, etc.). Des ajustements post-échantillonnage (pondérations, répartition des indécis) sont ensuite faits pour améliorer la représentativité de l’échantillon.
Y a-t-il crise?
La crise (existentielle ?) est la perte d’un point de repère connu, facile à comprendre et réconfortant. Malheureusement pour les sondeurs, les médias et la population, les panels web n’autorisent pas le calcul d’une marge d’erreur, l’échantillonnage n’étant pas probabiliste. Fini donc les phrases telles que : « Le sondage compte 1 000 répondants, avec une marge d’erreur de 3,1 %, 19 fois sur 20) ».
Il est maintenant extrêmement difficile d’obtenir un échantillon probabiliste qui satisfasse aux critères autorisant le calcul de la marge d’erreur. Au mieux, les sondeurs se rabattent sur une formulation du type : « […] bien qu’il ne soit pas possible d’établir une marge d’erreur à partir d’un panel, la marge d’erreur maximale pour un échantillon probabiliste de 500 répondants est de 4,38%, et ce 19 fois sur 20 » [4]. Faites vos adieux à la marge d’erreur, la vraie!
Mais tout n’est pas dit, loin de là. Une grande question, elle aussi existentielle pour certain-es, demeure : Si les échantillons ne sont plus probabilistes, les sondages, sont-ils fiables?