Comment prévoir une élection ? Ou plus précisément, comment écrire un modèle qui essaie de le faire ? Telle est la vaste quête dans laquelle nous nous sommes lancés chez PollsPosition. Quête qui peut sembler stupide à première vue d’ailleurs, puisque, vous le savez : tous les modèles sont faux. Parce que tout modèle implique des simplifications de la réalité, des hypothèses, des arbitrages. Mais le but n’est pas de découvrir la vérité ; le but est de s’en approcher – et d’être le moins mauvais possible.
Pour faire court, notre modèle prend tous les sondages, les pondère en fonction des dates de collecte, des tailles d'échantillon et des performances historiques des instituts , puis il simule des milliers d'élections pour obtenir une distribution des résultats possibles pour chaque parti. Plus précisément, il repose sur des méthodes bayésiennes et des chaînes de Markov Monte-Carlo – si cela vous semble obscur, n'ayez crainte, nous détaillons tout cela plus bas.
L’objectif : utiliser toute l’information, de manière méthodique
Lors d’une campagne électorale, nous faisons face à une information à la fois nombreuse et imprécise. Nombreuse parce qu’il y a tout simplement beaucoup de sondages au cours d’une élection (#MerciCaptainObvious), trop pour se souvenir de chacun d’eux à la main. Imprécise car la couverture médiatique repose sur les sondages – qui sont déjà ce qui se fait de mieux par rapport à des interviews au hasard dans la rue. Mais malgré leurs bonnes performances , les sondages sont toujours entourés d’erreurs – erreur d’échantillonnage , biais d’échantillonnage , erreur de mesure , etc.
Notre cerveau a ainsi beaucoup de mal à digérer tous ces sondages – et les erreurs qui vont avec – lorsqu’il évalue les rapports de force. Donc il prend des raccourcis. Plutôt que d’utiliser toute l’information disponible, il en jette une partie et ne prend en compte que le dernier sondage. Il compare les sondages sans se demander s’ils sont comparables. Et il interprète les sondages de manière déterministe, alors que l’information qu’ils délivrent est éminemment probabiliste.
Résultat, chaque nouvelle observation chasse l’ancienne, et le consensus est plus difficile à repérer que les données aberrantes, qui attirent notre œil précisément parce qu’elles semblent raconter une autre histoire – même si ce n’est pas la bonne.
Le but de notre modèle est donc d’introduire une méthode scientifique d'interprétation des sondages – de tous les sondages. Une méthode reproductible et systématique, et non plus une analyse au doigt mouillé cherchant à confirmer ce que l'on pensait déjà. Le résultat visé est ainsi une estimation plus fiable, moins volatile et moins biaisée – what else?
Etape 1 : collecter les sondages
L’idée est donc d’utiliser les ordinateurs là où ils sont meilleurs que nous : garder en mémoire tous les sondages, et discriminer systématiquement selon la date, l’échantillon et l’émetteur du sondage. Vous pouvez le faire à la main – si vous êtes mieux organisé que nous – mais un ordinateur sera plus rapide et plus fiable que vous.
Pour cela, il faut commencer par collecter le plus de sondages possibles. Nous le faisons principalement grâce à l'initiative Europe Elects , dont les données brutes sont déjà nettoyées et fiables. Nous vérifions cependant qu’il n’y a pas d’écart flagrant avec la page Wikipédia notamment.
Ainsi, tous les sondages nationaux sont intégrés à notre base de données. S’il en manque un, c’est que :
- il est très récent et nous n’avons pas encore eu le temps de l’intégrer
- nous l’avons intégré sous un nom diffèrent de celui que vous cherchez : PollsPosition nomme les sondages en fonction de l’institut qui l'a conduit, pas du média qui l’a commandé (par exemple, Ifop et non Paris Match)
- il a été réalisé par un institut inconnu jusque-là, sur lequel nous n’avons pas assez d’informations méthodologiques
- il a été commandé directement par un parti politique ou la campagne d’un candidat
Les sondages qui ne respectent pas les règles de la commission des sondages ne sont pas inclus dans notre base de données. En particulier, nous excluons les simulations de vote réalisées sur des échantillons d’internautes. D’une part, ces enquêtes n’ont rien à voir avec des sondages au sens statistique du terme – cela revient à mesurer la popularité du PSG en interrogeant ses supporters. D’autre part, ce ne sont même pas des sondages selon la loi : « les enquêtes de ce type, qui ne sont pas menées auprès d’échantillons représentatifs de la population, ne constituent pas des sondages entrant dans le champ de la loi du 19 juillet 1977 ».
Enfin, chaque sondage a une date de terrain. Les sondeurs indiquent les dates de début et de fin. Les dates indiquées dans notre modèle correspondent à la date médiane. Par exemple, si un sondage s’est déroulé du 2 au 4 février et a été publié le 7, le modèle le datera au 3 février. Nous ne prenons pas en compte la date de publication – et vous encourageons à en faire de même lorsque vous analysez un sondage. Ce qui compte, c’est le moment où les sondés ont répondu aux questions, pas le moment où leurs réponses apparaissent dans la presse.
Etape 2 : agréger et pondérer les sondages
Plutôt que de n’utiliser que le dernier sondage en date, nous utilisons tous les sondages disponibles – pourquoi jeter de l’information ? En agrégeant les données, les valeurs extrêmes se compensent, le bruit statistique diminue et vous avez plus de chances de repérer le signal.
Techniquement, l’agrégation se justifie par l’existence inévitable de biais statistiques dans les données utilisées par les sondeurs, aussi bien que dans leurs méthodes. Souvent, ces biais sont propres à chaque sondeur, si bien que l’agrégation de différents sondages, issus de différents instituts, utilisant différentes méthodes, tend à compenser ces imperfections. L’agrégation est d’autant plus utile quand 1/ de nombreux sondages sont disponibles, 2/ ces sondages sont issus de sources (méthodes, échantillons, instituts) différentes, et 3/ il est difficile de savoir a priori quel institut sera le plus précis. Le paysage français remplit bien ces conditions.
Évidemment, tous les sondages ne se valent pas. Donc, à l’image de notre agrégateur de popularité , notre modèle les pondère en fonction de plusieurs facteurs :
- La performance historique des instituts. Comme le montre notre classement , certains instituts performent mieux sur les partis de gauche, d'autres sur les partis de droite. Notre modèle tient compte de ces différences et pondère les sondages en conséquence, ce que vous ne pouvez pas faire à l'œil nu.
- La taille d’échantillon : un échantillon plus gros donne plus de poids, mais les rendements sont décroissants à partir d’un certain point. L’erreur diminue substantiellement entre un échantillon de 1 000 adultes et un autre de 200, mais elle diminue marginalement entre un panel de 10 000 et un autre de 1 000. Surtout, un échantillon aléatoire de 2 000 réponses est bien plus utile qu’un échantillon biaisé de 20 000 réponses. Au bout d’un moment, la qualité trompe la quantité.
- La date de collecte : plus un sondage est récent, plus il a de poids.
Enfin, soulignons que l’agrégation ne prend pas en compte directement la méthode de collecte, principalement parce que la plupart des sondeurs ont la même – les questionnaires auto-administrés en ligne – ce qui empêche de discriminer de manière objective. Mais nous faisons l'hypothèse que les méthodes de collecte influencent indirectement le classement, dans le sens où une bonne méthodologie est reflétée par une faible erreur à long terme.
La différence entre les méthodes de collecte s'explique moins par leurs qualités intrinsèques que par les différents publics qu’elles permettent d’atteindre. Chaque méthode ayant ainsi ses angles morts, l'agrégation permet de contre-balancer les biais associés. Une diversification des méthodologies (téléphones fixes et portables, questionnaires en ligne, face-à-face, ...) est donc souhaitable à nos yeux, dans l'objectif de minimiser le biais d'échantillonnage.
En bref, cette étape nous permet de donner plus de poids aux sources qui se sont montrées les plus fiables historiquement, tout en donnant leur chance aux petits nouveaux. C’est exactement ce que vous faites quand vous accordez a priori une confiance plus forte à Météo France qu’à un amateur de météorologie, peut-être éclairé... mais peut-être aussi illuminé. Pourquoi ne pas faire pour les sondages ce que l’on fait pour toute autre information ?
Etape 3 : modéliser les incertitudes et simuler l’élection
Jusque-là donc, nous avons une moyenne pondérée pour chaque parti, mais nous ne tenons pas compte des incertitudes qui entourent l’élection. Si vous donnez cela tel quel à votre modèle, il devrait être content : il a beaucoup de données, et visiblement peu d’incertitude. Conséquence : il sera très sûr de lui mais aura complètement tort – sauf par chance.
Les sondages ne sont en fait qu’une représentation imparfaite et ponctuelle du soutien latent de chaque parti dans la population, que l’on n’observe que les jours d’élection. Or, nous cherchons précisément à estimer ce soutien latent et les incertitudes qui l’entourent.
Ainsi, le modèle génère une erreur aléatoire pour chaque parti, simulant le fait que l’ensemble des sondeurs peut se tromper avec une amplitude plus ou moins grande – ou qu’un évènement médiatique impliquant – par exemple – des costumes, des assistants parlementaires fictifs ou un chef de la sécurité peut surgir au dernier moment et influencer les intentions de vote.
C’est un point crucial : les erreurs que nous simulons viennent de la distribution historique des erreurs, pour maximiser les chances qu’elles soient réalistes. Ainsi, les probabilités issues du modèle sont vraiment calibrées pour représenter l’incertitude historique. Mais cela a un prix : nos résultats sont conditionnés au fait que les erreurs des sondeurs en 2019 ne soient pas significativement différentes de celles qu’ils ont commises par le passé.
Le modèle répète cette simulation plusieurs centaines de milliers de fois – comme si l’élection avait lieu en même temps dans des milliers d'univers différents, avec à chaque fois des erreurs différentes. On obtient ainsi une distribution du soutien latent possible de chaque parti. Et à partir de là nous pouvons calculer le nombre de sièges correspondant, la probabilité de finir premier, celle de finir avant tel parti, etc. On peut en fait poser toutes les questions qui nous passent par la tête, puisque les simulations nous donnent l’ensemble des possibilités – encore une fois, conditionnées selon les hypothèses de notre modèle et les données qu’on lui fournit.
Comment obtient-on les distributions pour chaque parti ?
Cette question nous ramène au début du XVIIIème siècle, lorsque le pasteur et mathématicien britannique Thomas Bayes formalise le théorème qui portera son nom . Formule basique et relativement simple en probabilités, elle est à la base de l’inférence bayésienne , dont la caractéristique est de formuler ses résultats en termes probabilistes.
En français, le théorème répond à cette question : ayant un a priori sur la probabilité d'un évènement, et en observant des informations en lien avec cet évènement, comment devrais-je faire évoluer mon a priori pour tenir compte de ces informations (et ainsi construire mon a posteriori) ? Il s’agit tout simplement d’une forme d’apprentissage : la formule nous garantit la façon la plus logique de traiter les observations, en fonction de nos hypothèses de départ.
Elle diminue donc au maximum les biais cognitifs dans le traitement de l’information. Mais elle ne garantit pas que votre modèle soit bon : si vos hypothèses sont mauvaises ou biaisées, votre modèle sera mauvais et vous serez obligé de revoir votre copie. Mais c’est aussi l’un des avantages : cette formule vous oblige à intégrer les faits de manière logique dans votre raisonnement et à tirer les conclusions qui s’imposent.
L’autre avantage par rapport aux méthodes non-bayésiennes est l’obtention de distributions de probabilités plutôt que d’estimations ponctuelles, ce qui permet une communication plus intuitive des incertitudes. Imaginez deux médicaments dont on s'attend à ce qu'ils provoquent des effets indésirables sur 0,5% des patients en moyenne. Le premier a 5 chances sur 6 de le faire sur 0,3% à 0,7% des patients. Le deuxième a les mêmes chances de le faire sur 0,01% à 1% des patients. Votre décision de commercialiser est-elle la même dans les deux cas ? Pourtant la moyenne est la même…
Derrière ce théorème assez simple se cachent de considérables difficultés pour calculer les probabilités a posteriori. Les méthodes d’approximation, comme les chaînes de Markov Monte-Carlo , ont contribué au décollage des méthodes bayésiennes ces dernières années. La puissance de calcul croissante des ordinateurs a fait le reste.
Concrètement, nous utilisons le langage de programmation python et la librairie open-source PyMC3 pour réaliser notre modèle et les calculs d’inférence. Concluons donc sur un immense merci à tous les contributeurs, qui nous facilitent la vie et participent à la démocratisation de ces méthodes.