Retour aux sources
Pour que les résultats d’un sondage soient fiables, il faut qu’ils puissent s’étendre à l’ensemble de la population cible d’où provient l’échantillon. D’une manière ou d’une autre, il faut donc que celui-ci soit représentatif de cette population cible.
Traditionnellement, deux approches principales sont proposées. La première, mise de l’avant par le statisticien norvégien Anders Nicolaï Kiaer (1838-1919), consiste à déterminer d’avance les critères de représentativité et ensuite à constituer un échantillon dans lequel, pour chacun des critères, la proportion sera semblable à celle que l’on observe dans la population cible. Le problème est de savoir d’avance quels sont les critères de représentativité à utiliser. Un bon critère doit être un critère qui a un impact sur les résultats du sondage. Par exemple, si un des critères choisis est l’âge et qu’à la fin, peu importe le groupe d’âge, les résultats sont les mêmes, il est fort possible que ces résultats soient indépendants de l’âge des répondant-es. Ce critère ne serait alors pas un critère pertinent pour l’échantillonnage.
La deuxième façon de faire, qui a vite été adoptée, consiste à constituer des échantillons probabilistes. Jerzy Neyman (1894-1981) et d’autres mathématiciens de la même époque, ont amené l’idée que l’échantillonnage aléatoire pouvait, en probabilité, faire en sorte qu’un échantillon soit représentatif sans que l’on ait à se soucier de spécifier à l’avance les critères de représentativité. La logique est que, si chaque élément d’une population a la même probabilité de faire partie d’un échantillon (ou du moins une probabilité connue à l’avance), celui-ci ressemblera, en probabilité, à la population. Les caractéristiques présentes chez un grand nombre d’individus auront une plus grande probabilité de faire partie de l’échantillon et, inversement, les caractéristiques moins présentes auront une plus faible probabilité de faire partie de l’échantillon. Et merci à la loi des grands nombres, plus la taille de l’échantillon probabiliste sera grande, plus la différence entre la proportion observée d’une caractéristique dans l’échantillon et la proportion réelle dans la population tendra à diminuer [1].
Et aujourd’hui…
Entre le début des années 1950 et les années 2000, l’échantillonnage aléatoire basé sur les numéros de téléphone résidentiels (filaires) était la norme. La venue du cellulaire et l’abandon progressif de la téléphonie filaire a compliqué les choses à un point tel qu’il est aujourd’hui extrêmement difficile et coûteux de constituer des échantillons probabilistes.
La réponse des grandes firmes de sondage, depuis une dizaine d’années (et même un peu plus), a été de se rapprocher de la vision de Kiaer, soit de déterminer les critères de représentativité à respecter, et de faire en sorte que, pour chaque critère, la proportion de répondant-es dans l’échantillon soit la plus près possible de la proportion dans la population cible. C’est ce que font les panels web.
Rappelons que le panel web est une base de répondant-es potentiel-les (des centaines de milliers parfois), constituée selon plusieurs critères de représentativité de la population générale. L’échantillon d’un sondage est formé à partir des membres du panel afin que le profil des répondant-es corresponde au profil de la population spécifique ciblée par le sondage (sexe, âge, langue maternelle, lieu de résidence, etc.).
Plusieurs observateurs et observatrices estiment que, comme ces sondages par panels web ne reposent pas sur un échantillonnage aléatoire, ils sont peu fiables car il n’est pas possible de calculer de marge d’erreur. Clarifions un point ici… Il est vrai que la notion de marge d’erreur, pour un sondage, n’est théoriquement valide que si l’échantillon est probabiliste. Et pour les panels web, il est admis que les échantillons ne le sont pas. Le ligne à ne pas franchir est d’affirmer que si un échantillon n’est pas probabiliste, le sondage n’est donc pas fiable puisque qu’il n’y a pas de marge d’erreur.
Alors, fiables ou non les sondages ?
Les sondages électoraux sont à peu près les seuls pour lesquels on peut vraiment comparer les estimations obtenues (résultats des sondages) avec ce que l’on cherche à estimer (résultats des élections). Pour les firmes de sondage, la précision est importante. Les firmes de sondage sont fières de mettre l’accent sur le fait qu’elles ont obtenu les meilleurs résultats (élections fédérales de 2021)[2] même si, comme Léger le fait, un panel web est utilisé plutôt qu’un échantillonnage probabiliste. Mais peu importe la modalité de sondage, il peut toujours y avoir des surprises.
Les élections provinciales du 3 octobre 2022 ont capté l’attention, parce que des résultats des sondages, dans certains cas, étaient loin des scores électoraux.
Le tableau ci-dessus présente un comparatif entre les résultats de l’élection et ceux de la moyenne des sondages réalisés pendant les 10 derniers jours de la campagne électorale [3]. On voit bien que, dans le cas des panels web, le score de la CAQ a été passablement sous-estimé (-3,5 points), alors que pour les autres types de sondages (tous des sondages téléphoniques informatisée – IVR pour Interactive voice response), ce sont les scores de QS (-3,3 points) et du PQ (-3,1 points) qui ont été sous-estimés, alors que le score du PCQ a été surestimé de 4,4 points.
Plusieurs facteurs influencent la précision des sondages : leur modalité, le nombre de répondant-es et le climat social sont les principaux. Dans le cas de la campagne provinciale de 2022, le climat social influencé par la pandémie aura poussé la CAQ au pouvoir avec plus de vigueur que ce que les observateurs et observatrices ainsi que les sondages auraient pu prévoir.
Un autre facteur intéressant à considérer est la fiabilité des firmes de sondage. Certaines ont une meilleure réputation que d’autres. Le site indépendant Qc125.com (lancé à l’hiver 2017) présente, pour chacune des firmes dont les résultats sont publiés, une cote de fiabilité basée sur la performance passée des sondages. Le site de Qc125 est une bonne ressource pour les sondages électoraux provinciaux et fédéral. La recherche y est parfois ardue, mais les informations sont abondantes et devraient plaire à ceux et celles qui s’intéressent aux données électorales. Notons toutefois la surabondance de publicités intempestives, ce qui rend la consultation du site parfois désagréable.
Il ne faut pas oublier non plus qu’un sondage ne fait pas une élection. Comme en toute chose, pour bien s’informer, il faut diversifier nos sources d’information. Pour avoir une idée de la tendance (et savoir si elle se maintient !), jetez un coup d’œil sur les résultats des sondages de différentes firmes et prenez un pas de recul. Ne vous attardez pas trop aux résultats d’un seul sondage, mais tentez de voir ce qui se dégage de plusieurs d’entre eux réalisés à peu près à la même période. Le site Qc125.com est très utile pour cela. Pour les élections américaines, je vous recommande le site Fivethirtyeight.com.
Sources :
[1] Pour les personnes versées en statistiques, l’explication complète est un peu plus détaillée et ce principe était déjà connu depuis le début du 18e siècle.
[2] https://leger360.com/fr/les-elections-federales-2021-leger-est-la-firme-de-sondage-la-plus-precise/
[3] https://qc125.com/sondages.htm