Qc125.com - Méthodologie



[Dernière mise à jour: 24 juillet 2018]



1. Comment fonctionne le modèle?


Le logiciel utilise un générateur de chiffres aléatoires (que j'appellerai ici random) pour compiler des votes. Ces chiffres sont ensuite classés en ordre et associés à un parti selon les projections des sondages et des tendances électorales récentes.

Par exemple, si vous lancez un dé à vingt reprises, votre résultat pourrait ressembler à ceci:

3, 5, 1, 2, 1, 5, 6, 2, 4, 2, 6, 1, 4, 5, 3, 4, 4, 2, 1, 6

Plaçons-les en ordre:

1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 6

Supposons, par souci de simplicité, qu'un sondage publie que le parti bleu obtient 50% des voix (3/6), que le parti rouge en obtient 33% (2/6) et que le parti vert obtient 17% (1/6). Dans un tel cas, les chiffres 1, 2 et 3 seraient associés aux bleus, les chiffres 4 et 5 aux rouges et le 6, aux verts.

Le vote serait donc:

1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 6

Résultat:
Bleus: 10
Rouges: 7
Verts: 3

Les bleus gagnent la circonscription.

Évidemment, ce n'est pas un dé à six faces que nous lançons. Nous désirons associer un pourcentage de voix pour chacun des partis en lice (la marge d'erreur est discutée plus bas). Supposons que l'on estime que les bleus ont 40% des voix, les rouges 35% et les verts, 25%. Utilisons la fonction random pour générer 100 chiffres de 0 à 99:

64, 43, 84, 18, 71, 28, 11, 58, 72, 74, 68, 31, 43, 56, 85, 56, 62, 45, 53, 46, 98, 28, 68, 55, 40, 4, 86, 46, 52, 64, 38, 8, 79, 85, 83, 18, 36, 28, 4, 79, 62, 63, 93, 61, 95, 55, 26, 16, 88, 27, 37, 85, 18, 30, 28, 23, 32, 25, 35, 3, 94, 69, 99, 67, 53, 50, 4, 3, 52, 89, 33, 87, 44, 15, 10, 98, 67, 9, 58, 53, 2, 22, 71, 29, 60, 54, 41, 97, 12, 71, 86, 21, 18, 65, 83, 51, 73, 12, 82, 68

Les chiffres de 0 à 39 sont des votes pour les bleus, 40 à 74 des votes pour les rouges et 75 à 99 pour les verts. Plaçons ces chiffres en ordre et classons-les selon le parti:

2, 3, 3, 4, 4, 4, 8, 9, 10, 11, 12, 12, 15, 16, 18, 18, 18, 18, 21, 22, 23, 25, 26, 27, 28, 28, 28, 28, 29, 30, 31, 32, 33, 35, 36, 37, 38, 40, 41, 43, 43, 44, 45, 46, 46, 50, 51, 52, 52, 52, 53, 53, 53, 54, 55, 55, 56, 56, 58, 58, 60, 61, 62, 62, 63, 64, 64, 65, 67, 67, 68, 68, 68, 69, 71, 71, 71, 72, 73, 74, 79, 79, 82, 83, 83, 85, 85, 85, 86, 86, 87, 88, 89, 93, 94, 95, 97, 98, 98, 99 

Résultat:
Bleus: 37
Rouges: 42
Verts: 21

Les rouges gagnent la circonscription.

Évidemment, comme les bleus (0 à 39) possèdent une plus grande plage de chiffres que les rouges (40 à 74), les bleus vont statistiquement gagner plus de simulations que les rouges. C'est pourquoi une seule simulation ne suffit pas. Plus il y a de simulations, plus les probabilités calculées seront représentatives.

Certes, l'exemple ci-dessus devrait vous donner une idée du fonctionnement de base du modèle, mais, évidemment, il y a beaucoup plus de facteurs qui entrent en considération. C'est la raison pour laquelle le logiciel m'a pris plus d'un an à écrire! (Et je tente encore de l'améliorer à chaque utilisation.)

Considérez ceci:

1. Il y a 125 circonscriptions au Québec. Elles ont toutes leurs propres particularités, leur propre histoire, leurs propres tendances électorales;

2. Chaque circonscription reçoit en moyenne 48 000 votes et non juste 100;

3. Les circonscriptions n'ont pas le même nombre d'électeurs. Par exemple, le comté de Nelligan dans le West Island compte 58nbsp;200 électeurs, alors que Gaspé n'en contient que 30 800 (chiffres de 2014). Ces deux circonscriptions possèdent le même poids en termes de sièges, mais Nelligan affecte le total du vote populaire presque deux fois plus que Gaspé.

4. Ce n'est pas tout. Le taux de participation n'est pas le même pour chaque comté. Par exemple, 83% des électeurs de Montarville (en Montérégie) ont voté en 2014, alors que seulement 41,5% des électeurs d'Ungava (Nord du Québec) ont performé l'exercice démocratique. Certes, ces chiffres varient d'élection en élection, mais on compilant les taux depuis les deux dernières décennies, on peut y déceler des tendances. 


Le modèle est donc complexe. Et je ne peux même pas affirmer qu'il est terminé. Il y aura toujours des améliorations à apporter.

En fait, l'aspect le plus complexe du modèle est lié aux marges d'erreur qui 1) varient de région en région, et 2) sont malgré tout en corrélation. Cette facette du modèle est décrite plus bas.




2. Où prenez-vous vos chiffres?


Je commence en prenant les moyennes pondérées des résultats des élections de l'ère post-référendaire (1998, 2003, 2007, 2008, 2012 et 2014) dans chaque circonscription. Les élections récentes possèdent, évidemment, une pondération plus importante.

J'ajuste les chiffres des comtés où des élections partielles ont eu lieu, quoiqu'ils n'ont rarement beaucoup de poids dans la pondération totale.

J'ajuste les chiffres des comtés où des candidats vedettes de chaque parti se présentent (ou « sont parachutés »).

J'utilise les sondages des firmes professionnelles pour ajuster les tendances de mois en mois. Généralement, hors-campagne et à moins d'un évènement majeur, les chiffres varient lentement. Je vais donc calculer une moyenne pondérée des sondages des trois à six derniers mois. Évidemment, les sondages plus récents possèdent une pondération plus importante.


Attention: la pondération accordée aux chiffres de ces firmes est une décision éditoriale de Qc125. Les sondages n'ont pas tous le même poids dans le modèle et ces pondérations sont à la discrétion de Qc125. Je reconnais que ce genre de décision est sujette à la critique et je l'assume pleinement.


Par exemple, voici les sondages des intentions de vote, toutes firmes confondues, de juin 2017 à juin 2018:



Les lignes pâles et accidentées représentent les moyennes pondérées des intentions de vote telles que calculées par le modèle électoral Qc125, où chaque sondage est soigneusement pondéré selon la taille de son échantillon et sa date de terrain. Plus le sondage « vieillit », plus sa pondération diminue dans le temps. Cette méthode de calcul permet d’amortir les fluctuations normales des sondages.

En isolant ces courbes, voici ce que nous obtenons:



Les moyennes pondérées des sondages sont donc calculées ainsi. Il en est de même pour les intentions de vote des sous-échantillons géographiques et démographiques mais attention: l'incertitude des sous-échantillons naturellement est plus importante que celle de l'échantillon complet.





3. Quelles sont les incertitudes?


Le générateur random possède lui-même une incertitude qui diminue plus on compile un grand nombre de chiffres. Sur des centaines de simulations compilant chacun des millions de chiffres, les erreurs générées par le random ne sont pas significatives.

Les sondages à l'échelle de la province possèdent généralement des incertitudes autour de 3%. Cependant, les incertitudes des sondages régionaux sont davantage autour de 5%-6%. Comme le logiciel compile des votes de circonscription en circonscription, une incertitude variant de 5% à 6% est ajoutée au modèle.

De plus, les incertitudes doivent être en corrélation de comté en comté. Par exemple, si le PLQ est sous sa moyenne dans Laval-des-Rapides, il sera aussi statistiquement sous sa moyenne dans Sainte-Rose (aussi à Laval). Si la CAQ performe mieux que prévu dans Saint-Hyacinthe, elle est probablement aussi au-dessus de sa moyenne dans Arthabaska. J'ai découpé le Québec en « régions électorales » qui ne correspondent pas nécessairement avec les régions géographiques québécoises officielles. Les comtés au sein d'une même région ont des tendances électorales similaires (depuis 1998). Attention: ceci ne signifie pas que les comtés d'une même région élisent les mêmes partis, mais plutôt que les mouvements et variations d'élections en élections vont généralement dans le même sens.

Avec une incertitude régionale de 5-6%, le modèle obtient des données ayant des écarts-types autour de 1,5% et des variations minimales/maximales de 4% au niveau national. (Je préfère légèrement surestimer l'incertitude que la sous-estimer.)

Il s'agit ici d'une autre raison pour laquelle des milliers de simulations sont nécessaires pour obtenir un portrait représentatif: par exemple, une simulation pourrait prendre (en moyenne) -2% pour les Libéraux, +3% pour le PQ et -1% pour la CAQ. La simulation suivante pourrait être +2,5% pour le PLQ, -2% pour le PQ et +0,5% pour la CAQ. Une simulation prise à elle seule ne peut pas donner un portrait aussi précis qu'une somme de simulations.

Attention: je n'indique pas l'incertitude sur le graphique des résultats des simulations (voir ci-dessous), parce qu'il ne s'agit que de l'énumération des résultats des simulations:


... mais il y a une incertitude sur la projection du vote populaire et la projection de sièges (voir section ci-dessous).




4. Comment lire les graphiques?


Les chiffres de grande police indiquent la moyenne des résultats des simulations. Les petits chiffres à gauche et droite de chaque barre indiquent, respectivement, la marge d'erreur avec un intervalle de confiance de 95% (moyenne ± 1,96 × écart-type).

Considérez la projection du vote populaire suivante:



Regardez les barres pour le Parti libéral: on constate que le vote populaire moyen du PLQ est de 29,1%. De plus, les Libéraux obtiennent entre 26,3% et 31,8% sièges dans 19 simulations sur 20. Un vote populaire inférieur ou supérieur à ces valeurs est possible, mais il serait considéré comme une donnée aberrante.


Considérez la projection de sièges suivante et regardez les barres pour la CAQ:

Par exemple, sur la figure ci-dessous, la CAQ obtient un total de siège moyen de 63,1. De plus, elle obtient entre 43,5 et 82,8 sièges dans 19 simulations sur 20. Un total de sièges inférieur ou supérieur à ces valeurs est possible, mais il serait considéré comme une donnée aberrante.

Les données «aberrantes» font partie de l'échantillon! Même si elles sont peu probables, il est préférable de ne pas les ignorer.

Une autre façon de regarder la probabilité des projections de sièges est de compiler tous les résultats selon leur fréquence, soit:



Il s'agit d'une graphique de densité de probabilités. Les distributions en forme de cloche (semblable à des courbes de type gaussienne) indiquent les probabilités de totaux de sièges pour chaque parti. Les distributions larges et basses signifient que le résultat est plus incertain. Les distributions étroites et élevées indiquent plutôt que le spectre de scénarios possibles est plus restreint.




5. Comtés solides, probables et pivots?



Un comté solide est une circonscription où un parti remporte plus de 95% des simulations.

Un comté probable est une circonscription où un parti remporte entre 80% et 95% des simulations.

Un comté pivot enclin est une circonscription où le parti favori ne remporte qu'entre 60% à 80% des simulations.

Finalement, les pivots sont ceux où aucun parti ne remporte au moins 60% des simulations. Ces comtés sont « too close to call ».

Sur les cartes, les comtés solides et probables sont désignés par la couleur principale du parti en tête (rouge pour libéral, bleu pour Parti québécois, turquoise pour la CAQ et orange pour Québec solidaire). Quant aux comtés pivots, ils sont indiqués par des couleurs pâles.

Par exemple, sur la carte suivante, la circonscription de Matane-Matapédia est de couleur bleu foncé, indiquant un comté péquiste solide. La circonscrption voisine de Bonaventure est de couleur bleu pâle, ce qui signifique qu'il s'agit d'un pivot:




Sur la carte ci-dessous, la circonscription de La Peltrie est de couleur turquoise, indiquant un comté caquiste solide:


Sur la carte ci-dessous, la circonscription de Chomedey est rouge, indiquant un comté libéral solide:


Sur la carte ci-dessous, la circonscription de Laurier-Dorion est rose (rouge pâle), indiquant un comté libéral pivot. Juste au sud-est de Laurier-Dorion se trouvent les circonscriptions solides de Québec solidaire (orangées):







Qc125.com © 2016-2018;