Catégories
Politiques socialistes

Comment fonctionnent les prévisions présidentielles 2020 de FiveThirtyEight – et ce qui est différent à cause du COVID-19

Nos prévisions présidentielles, qui ont été lancées aujourd'hui, ne sont pas les premières prévisions électorales publiées par FiveThirtyEight depuis 2016. Il y avait nos prévisions de mi-mandat en 2018, qui étaient assez précises pour prédire la composition de la Chambre et du Sénat. Et il y avait notre modèle de primaires présidentielles plus tôt cette année, qui était un peu une aventure mais surtout remarquable pour être optimiste (correctement) sur Joe Biden et (à tort) sur Bernie Sanders. Mais nous sommes conscients que la publication de nos premières prévisions présidentielles depuis 2016 risque d’être lourde.

Nous aimerions aborder une chose dès le départ: nous pensons que notre modèle a fait du bon travail en 2016. Bien qu'il ait favorisé Hillary Clinton, il a donné à Donald Trump environ 30% de chances de gagner le jour du scrutin, ce qui était considérablement plus élevé que d'autres modèles, des marchés de prédiction ou des idées reçues sur la course. De plus, les raisons pour lesquelles le modèle était plus optimiste sur Trump que d'autres prévisions – telles que la détection d'une surperformance potentielle de Trump au Collège électoral – se sont avérées importantes pour le résultat.

De plus, nous avons constaté que les modèles de FiveThirtyEight – y compris nos prévisions électorales depuis leur première publication en 2008 – ont été bien calibrés au fil du temps. Les candidats qui, selon nos modèles, ont 30% de chances de gagner gagnent vraiment leurs courses environ 30% du temps, par exemple.

Donc, s'il s'agissait d'une élection ordinaire, nous dirions probablement simplement de visser, de prendre la version 2016 de notre modèle, d'apporter quelques améliorations modestes et d'appuyer sur "go". Mer consacrer certainement plus d'attention à la façon dont le modèle était présenté, mais les calculs sous-jacents seraient à peu près les mêmes.

Nous ne sommes cependant pas sûrs qu’il s’agisse d’une élection ordinaire. Au contraire, il est contesté au milieu de la pandémie la plus grave à frapper les États-Unis depuis 1918. Nous avons donc beaucoup réfléchi à la façon dont COVID-19 et d'autres développements pourraient affecter divers aspects de la course, allant de son impact. sur l’économie pour savoir comment elle pourrait modifier le processus de vote.

En d'autres termes, alors que nous pensons «ZOMG 2016 !!!» Ce n'est pas une bonne raison pour repenser un modèle qui avait tendance à être assez prudent au départ, nous pensons que COVID-19 pourrait l'être.

Ce qui est différent de 2016

En fin de compte, notre modèle n’est toujours pas cette différent de celui de 2016, mais passons en revue la liste des modifications. Après cela, nous fournirons une description recto verso du fonctionnement de notre modèle.

Premièrement, un certain nombre de changements dans le modèle sont liés au COVID-19:

  • En prévoyant à quel point les sondages pourraient changer, nous prenons désormais en compte davantage de composantes liées à l'incertitude. Deux de ces éléments comprennent l'estimation i) de l'incertitude économique et ii) du volume global des nouvelles importantes, qui sont tous deux très élevés sous COVID-19. Celles-ci compensent d'autres tendances – comme une plus grande polarisation – qui conduiraient à moins d'incertitude.
  • Nous avons consacré beaucoup plus de travail à notre indice économique: i) le prolonger jusqu'en 1880 pour saisir une gamme plus complète de conditions économiques, ii) l'ajuster pour une plus grande partisanerie et iii) développer une composante de prévision économique pour refléter les changements potentiels dans le économie d’ici à novembre. Ceci est important car la plupart des projections prévoient une amélioration substantielle de l'économie avant novembre.
  • Nous tentons de tenir compte de l'incertitude supplémentaire dans les résultats du jour du scrutin, car le taux de participation sera potentiellement moins prévisible étant donné la pandémie.
  • Nous permettons à COVID-19 d'être un facteur dans la détermination de la covariance. Autrement dit, les États qui ont eu des taux élevés de décès et de cas de COVID (comme l'Arizona et New York, qui autrement n'ont pas grand chose en commun sur le plan politique) pourraient avoir des résultats corrélés. De même, nous considérons également la covariance basée sur le taux anticipé de vote par correspondance d'un État.
  • Les conventions de parti étant considérablement réduites et largement tenues virtuellement, nous n'appliquons que la moitié de l '«ajustement de rebond de convention» habituel (voir ci-dessous pour en savoir plus sur l'ajustement de rebond de convention).

D'autres changements entrent davantage dans la catégorie des améliorations continues que nous apportons à nos modèles qui ne sont pas directement liés au COVID-19:

  • Depuis 2016, nous avons apporté diverses modifications à la façon dont nos moyennes de sondage sont calculées, comme décrit ici.
  • Nous tenons maintenant compte des changements dans la facilité de voter dans chaque État, car empiriquement, cela se traduit par une participation plus élevée et une part plus élevée de votes démocrates.
  • Le modèle est désormais plus prudent face aux événements majeurs tels que les débats présidentiels qui peuvent avoir un impact démesuré sur les moyennes des sondages des candidats. Si un candidat gagne du terrain dans les sondages à la suite de l'un de ces événements, il devra maintenir ce mouvement pendant une semaine ou deux pour en obtenir le mérite.
  • Nous n’exécutons qu’une seule version du modèle présidentiel cette année. Les choses sont suffisamment compliquées dans une élection tenue pendant une pandémie sans entrer dans les prévisions «sondages seulement» et «sondages plus». Il n'y a pas non plus de «casting actuel». Nos moyennes de sondage sont le meilleur moyen de refléter l'instantané actuel de la course, mais l'instantané n'est pas le même que le résultat prévu pour le jour du scrutin.

Le reste du fonctionnement de notre modèle comporte trois étapes majeures. Ce qui suit est une présentation assez détaillée, mais je serai plus circonspect lorsque je discuterai des étapes décrites plus en détail ailleurs, comme dans notre guide de méthodologie 2016.

Étape 1: Collectez, analysez et ajustez les sondages

Nos moyennes de sondage nationales et étatiques, que nous avons commencé à publier en juin, sont les premières étapes que nous prenons dans l'élaboration de nos prévisions électorales. Nous avons détaillé notre processus de construction de ces moyennes de sondage lorsque nous les avons publiés, je vais donc simplement passer en revue les faits saillants ici.

  • Nos moyennes de sondage se veulent aussi inclusives que possible. Nous ne voulons pas avoir à prendre beaucoup de décisions arbitraires sur les sondages à inclure. Mais veuillez consulter notre politique de sondage pour certaines exceptions concernant les cas où nous ne pouvons pas utiliser un sondage dans nos prévisions. Parfois, il y a aussi des retards dans l'ajout d'un sondage jusqu'à ce que nous puissions obtenir plus d'informations à ce sujet.
  • Les sondages sont pondérés en fonction de la taille de leur échantillon et de leur cote de sondage, de sorte que les sondages de meilleure qualité ont plus d'influence sur les prévisions. Et s'il y a un grand nombre de sondages d'une même société de sondage, le poids appliqué à chaque sondage individuel est réduit de sorte qu'aucun sondeur ne domine la moyenne.
  • Nos moyennes de sondage reflètent un mélange de deux méthodes. La première est une moyenne pondérée relativement simple et la seconde est une méthode plus complexe basée sur le calcul d'une ligne de tendance. Des deux, la méthode de la ligne de tendance a tendance à être plus agressive. Si tôt dans la campagne, nous nous appuyons principalement sur la méthode de la moyenne pondérée plus conservatrice, tandis que dans les dernières semaines, nous utilisons principalement la méthode de la ligne de tendance – cela signifie que nos moyennes de sondage deviennent plus agressives à l'approche du jour du scrutin.
  • Les moyennes des sondages sont soumises à trois types d'ajustements:
    • le ajustement probable des électeurs, qui montre que les sondages des électeurs probables et des électeurs inscrits diffèrent de manière prévisible, ajuste les sondages des électeurs inscrits pour les rendre plus comparables aux sondages probables des électeurs. De manière générale, cela signifie que les républicains (comme Trump) gagnent du terrain par rapport aux démocrates lorsqu'ils appliquent un écran d'électeur probable, bien que cet effet soit atténué lorsque le républicain est un titulaire. En effet, les sondages de cette année qui ont à la fois une version électorale inscrite et une version électorale probable montrent généralement que Trump se débrouille légèrement mieux dans la version électorale probable. Cependant, il ne fait que légèrement mieux, gagnant environ 1 point de pourcentage en moyenne.
    • le ajustement des effets de la maison, qui détecte les sondages qui penchent systématiquement vers un parti ou qui ont systématiquement plus (ou moins) d'électeurs indécis que les autres sondages des mêmes États, et les ajuste pour corriger cela. Par exemple, les sondages Rasmussen Reports ont généralement des résultats très républicains. Cet ajustement en tiendrait donc compte. Cependant, les sondages sont autorisés à conserver au moins une partie de leur effet maison, car un effet maison apparent sur un petit nombre de sondages pourrait refléter un bruit statistique. Dans le calcul des effets de maison, le modèle utilise principalement des sondages du même État, de sorte qu'une entreprise de sondage pourrait théoriquement avoir un effet de maison à tendance Trump dans un État et un effet de maison à tendance Biden dans un autre.
    • Enfin, nous appliquons un ajustement de la chronologie, qui est basé sur la récence d'un sondage, et ajuste les «anciens» sondages pour les changements dans la course globale depuis qu'il a été mené. Par exemple, disons qu'un sondage de l'Arizona le mois dernier a montré à Biden une hausse de 3 points, mais il y a eu un fort virage vers Trump depuis lors dans les sondages nationaux et les sondages d'États similaires tels que le Nevada. Cet ajustement déplacerait cet ancien sondage de l'Arizona vers Trump.

Comme nous l'avons noté, le calcul des moyennes des sondages est la première étape du calcul de nos prévisions. Mais ce n'est pas la même chose.

Une fois où cette distinction est particulièrement pertinente, c'est la suite d'événements majeurs tels que les débats et les conventions des partis. Ces événements produisent parfois de grandes fluctuations dans les sondages, et nos moyennes de sondage sont conçues pour être agressives après ces événements et refléter le changement d'état de la course. Cependant, ces changements ne sont pas nécessairement durables et, après quelques semaines, les sondages reviennent parfois là où ils étaient auparavant.

Par conséquent, le modèle ne repose qu'en partie sur la moyenne des sondages de la course après qu'un de ces événements se soit produit. Par exemple, supposons qu'il y ait un débat le 1er octobre et que vous examinez le modèle, par exemple, le 5 octobre. Il utilisera un mélange de la moyenne des sondages post-débat du 5 octobre. et la moyenne des sondages pré-débat à partir du 1er octobre. Après une semaine ou deux (selon l'événement) cependant, le modèle utilisera pleinement la moyenne des sondages post-événement car il ne s'attend plus nécessairement à un retour à la moyenne.

En outre, notre modèle présidentiel a traditionnellement appliqué un ajustement de rebond de convention qui reflète la poussée prévisible dans les sondages qu'un parti a tendance à obtenir en suivant sa convention. Clinton s'est hissée à certaines de ses plus grandes pistes du cycle après la Convention démocratique de 2016, par exemple. Cependant, trois facteurs pourraient atténuer le rebond de la convention cette année.

  • Premièrement, les rebonds de convention sont devenus plus petits avec le temps, reflétant probablement un nombre réduit d'électeurs swing en raison d'une plus grande partisanerie. Sur la base des niveaux actuels de polarisation, par exemple, nous nous attendrions à ce qu'un parti interroge environ 5 points de pourcentage de mieux au sommet de son rebond de convention le lendemain de la conclusion de sa convention, les effets s'atténuant assez rapidement par la suite. C'est en baisse par rapport aux rebonds des conventions passées qui pouvaient parfois être mesurés à deux chiffres.
  • Deuxièmement, comme mentionné précédemment, nous n'appliquons que la moitié de l'ajustement habituel du rebond de convention cette année car en raison du COVID-19, les conventions sont réduites.
  • Troisièmement, parce que la Convention nationale républicaine de cette année a lieu la semaine qui suit immédiatement la Convention nationale démoratique, les effets pourraient en grande partie s’annuler – le rebond de Biden pourrait être déraillé par le rebond de Trump, en d’autres termes. Étant donné que la convention de Trump arrive en second lieu, ses effets pourraient persister un peu plus longtemps, mais le modèle s'attend à ce que l'effet net soit faible étant donné que la convention démocrate sera également assez fraîche dans l'esprit des électeurs.

Ainsi, les ajustements de rebond de convention seront faibles cette année. Les sondages menés entre la convention démocrate et la convention républicaine seront ajustés vers Trump d'environ 2 ou 2,5 points de pourcentage, selon les dates précises des scrutins. Et les sondages dans les deux à trois semaines après la convention républicaine seront ajustés en faveur de Biden, mais très légèrement (de moins d'un point de pourcentage complet).

Étape 2: associez les sondages aux «fondamentaux», tels que les données démographiques et économiques

Par rapport aux autres modèles, les prévisions de FiveThirtyEight reposent largement sur les sondages. Cependant, nous intégrons d'autres données de deux manières principales:

  • Premièrement, la moyenne des sondages dans chaque État est combinée à une estimation modélisée du vote basée sur la démographie et les modèles de vote passés pour créer ce que nous appelons un «instantané amélioré» des conditions actuelles. Ceci est particulièrement important dans les États où il y a peu ou pas de sondages.
  • Deuxièmement, que instantané est ensuite combiné avec nos priors, en fonction de la situation et des conditions économiques, pour créer un prévoir des résultats du jour du scrutin.

Améliorer nos moyennes de sondage

Au cœur de l'estimation modélisée se trouve l'indice maigre partisan de FiveThirtyEight, qui reflète la manière dont l'État a voté lors des deux dernières élections présidentielles par rapport à la moyenne nationale. Dans notre indice maigre partisan, 75% du poids est attribué à 2016 et 25% à 2012. Notez donc, par exemple, que l'Ohio (qui est devenu beaucoup plus rouge entre 2012 et 2016) ne devrait pas nécessairement continuer à devenir plus rouge. Au lieu de cela, il pourrait revenir quelque peu à la moyenne et redevenir plus violet.

L'indice Lean partisan contient également un certain nombre d'autres ajustements:

  • Nous nous adaptons aux états d'origine des candidats à la présidentielle et à la vice-présidence. L'ampleur de l'ajustement de l'État d'origine est beaucoup plus importante pour les candidats à la présidentielle que pour leurs colocataires. La taille de l'État est également un facteur: les avantages de l'État d'origine sont plus importants dans les États dont la population est plus petite. Nous permettons également aux candidats d'être associés à plus d'un État, auquel cas le bonus de l'État d'origine est divisé. Pour Biden, par exemple, son état d'origine principal est le Delaware (où il vit actuellement), et son état secondaire est la Pennsylvanie (où il est né). Et pour Trump, son principal État d'origine est New York (où il est né), et son état secondaire est la Floride (où il revendique officiellement sa résidence).
  • Nous nous adaptons également à ce que nous appelons un État élasticité. Certains États comme le New Hampshire «swinguent» plus que d'autres en réponse aux tendances nationales car ils ont une proportion plus élevée d'électeurs swing, ce qui peut provoquer des fluctuations plus importantes d'un cycle à l'autre. le scores d'élasticité que nous utilisons pour 2020 sont basés sur un mélange de l'élasticité de chaque État en 2008, 2012 et 2016.
  • Et enfin, nous tenons compte des changements dans la facilité de voter dans chaque État sur la base de l'indice du coût du vote, car les chercheurs ont constaté que les États avec des barrières de vote plus élevées ont tendance à produire de meilleurs résultats pour les candidats républicains et les États avec des barrières moins élevées ont tendance pour pencher plus démocrate.

Nous appliquons ensuite l'indice Lean partisan de trois manières légèrement différentes pour créer une estimation modélisée du vote dans chaque État.

  • Il y a d'abord ce que nous appelons la «méthode rigide» parce qu'elle suit de manière rigide l'indice du lean partisan. Dans cette technique, nous imputons d'abord la position de la race au niveau national sur la base d'un mélange de sondages étatiques et nationaux. (La majeure partie du poids dans ce calcul va en fait aux sondages d'État, cependant. Les sondages nationaux jouent relativement peu de rôle dans les prévisions FiveThirtyEight, à part calculer l'ajustement de la ligne de tendance à l'étape 1.) Ensuite, nous y ajoutons l'indice maigre partisan d'un État. . Par exemple, si nous estimons que Biden est en avance de 5 points au niveau national et que l'indice maigre partisan d'un État est D + 10 – ce qui signifie qu'il vote 10 points de plus démocrate que le pays dans son ensemble – la méthode rigide projeterait que Biden est actuellement en avance de 15 points là-bas.
  • La deuxième est la méthode de régression démographique. Fondamentalement, le but de cette technique est de déduire ce que les sondages diraient dans un État basé sur les sondages d'autres États qui ont plus de sondages. Dans cette méthode, adoptée à partir d’un processus similaire que nous avons appliqué dans notre modèle principal, nous utilisons l’indice allégé partisan d’un État plus une combinaison d’autres variables dans une série d’analyses de régression pour essayer de s’adapter au sondage actuel dans chaque état. Les variables considérées comprennent la race (spécifiée de plusieurs manières différentes), le revenu, l'éducation, l'urbanisation, la religiosité et un indice indiquant la gravité de la situation COVID-19 dans chaque État, basé sur le nombre de cas et de décès par habitant enregistrés par le Projet de suivi COVID. (Techniquement parlant, le modèle exécute jusqu'à 180 régressions différentes basées sur diverses combinaisons de ces variables, mais il existe des limites sur les variables pouvant apparaître ensemble dans les régressions afin d'éviter la colinéarité, ainsi que sur le nombre de variables pouvant être incluses. ) Nous prenons ensuite une moyenne pondérée de toutes les régressions, où les spécifications de régression avec un R2 ajusté plus élevé reçoivent plus de poids, mais toutes les régressions reçoivent au moins un certain poids.
  • Troisièmement, la méthode de régression régionale. C’est beaucoup plus simple: il consiste en une analyse de régression unique où les variables dépendantes sont l’indice maigre partisan d’un État, plus des variables fictives indiquant dans laquelle des quatre grandes régions (Nord-Est, Midwest, Sud, Ouest) se trouve l’État.

Nous combinons ensuite ces trois estimations pour créer une prévision d'ensemble pour chaque état. La méthode rigide, qui est la plus précise historiquement, reçoit la majorité du poids, suivie de la régression démographique puis de la régression régionale.

Ensuite, nous combinons la prévision d'ensemble avec la moyenne d'interrogation d'un état pour créer un instantané amélioré des conditions actuelles dans chaque état. Le poids accordé à la moyenne des sondages dépend du volume des sondages dans chaque État et de la date à laquelle le dernier sondage de l'État a été mené récemment. Au lancement des prévisions (12 août), environ 55% du poids va à la moyenne des sondages plutôt qu'à l'ensemble dans l'état moyen. Cependant, dans les États bien sondés vers la fin de la campagne, jusqu'à 97 ou 98 pour cent du poids pourrait aller vers la moyenne des sondages. À l'inverse, les États qui ont peu de sondages s'appuient principalement sur la technique de l'ensemble (et les États qui n'ont pas de sondages utilisent l'ensemble au lieu d'une moyenne de sondage).

Ensuite, nous combinons les instantanés améliorés dans chaque état pour créer un nationale instantané, qui est essentiellement notre prédiction de la marge de vote populaire nationale lors d'une élection tenue aujourd'hui. L'instantané national rend compte de la participation électorale projetée dans chaque État sur la base de la croissance démographique depuis 2016, de l'évolution de la facilité de vote depuis 2016 et de la proximité actuelle de la course dans cet État – les États aux sondages plus rapprochés ont tendance à avoir une participation plus élevée. Les sondages nationaux sont ne pas utilisé dans l'instantané national; il s’agit simplement d’une somme des instantanés dans les 50 États et à Washington, D.C.

Nous savons que cela commence à être assez impliqué – nous sommes vraiment dans les tripes du modèle maintenant – mais il y a une autre étape importante. Notre aperçu national n'est pas la même chose que notre prédiction du résultat du jour du scrutin. Au lieu de cela, notre prédiction associe un instantané basé sur les sondages à une «prévision fondamentale» basée sur les conditions économiques et sur la question de savoir si un titulaire souhaite être réélu.

Sondages et principes de base

Je dis publiquement que je pense que les modèles de prévision présidentielle basés strictement sur des facteurs «fondamentaux» tels que les conditions économiques sont surestimés. Sans obtenir aussi profondément dans les mauvaises herbes, il est facile de «p-hack» votre chemin vers la gloire avec ces modèles car il y a tellement de façons de mesurer «l'économie», mais seulement un petit échantillon d'élections pour lesquelles nous avons des données économiques fiables. Le signe révélateur de ces problèmes est que les modèles qui prétendent prédire extrêmement bien les élections passées produisent souvent des réponses inexactes – voire ridicules – lorsqu'ils sont appliqués à des élections dont le résultat est inconnu à l'avance. Un modèle populaire basé sur le PIB du deuxième trimestre, par exemple, implique que Biden est actuellement en passe de gagner près de 1000 votes électoraux – un peu un problème puisque le nombre maximum théoriquement réalisable est 538.

En même temps, cela ne veut pas dire que les principes fondamentaux ne sont d'aucune utilité. Ils peuvent apporter une valeur ajoutée et orienter doucement vos prévisions dans la bonne direction – si vous les utilisez avec précaution (bien qu’ils soient difficiles à utiliser avec précaution dans un contexte comme la pandémie).

Ainsi, depuis 2012, nous utilisons un indice des conditions économiques dans nos prévisions présidentielles. Dans son incarnation actuelle, il comprend six variables:

Toutes les variables sont normalisées de manière à avoir à peu près la même moyenne et l'écart type – et, par conséquent, avoir une influence à peu près égale sur l'indice – pour les données économiques depuis 1946. L'indice est ensuite basé sur les lectures de ces variables dans les deux années précédant à l'élection (par exemple, de novembre 2018 à novembre 2020 pour cette élection) mais avec un poids considérablement plus lourd placé sur les données plus récentes, en particulier les données environ six mois avant l'élection. Lorsque cela est possible, l'indice est calibré sur la base de données économiques «anciennes» – c'est-à-dire des données telles qu'elles ont été publiées en temps réel – plutôt que sur des données révisées ultérieurement.

Bien que la qualité des données économiques soit plus discutable avant les élections de 1948, nous avons également tenté de créer une version approximative de l'indice des élections remontant à 1880 sur la base des données que nous avons pu trouver. (Il est extrêmement important, à notre avis, d'élargir la taille de l'échantillon pour ce type d'analyse, même si nous devons nous fier à des données un peu moins fiables pour le faire.) Notre indice économique pour les élections datant de 1880 (voir ci-dessous) est exprimé comme un score Z, où un score de zéro reflète une économie moyenne. Et, comme vous pouvez le voir, les conditions économiques extrêmement négatives tendent à prédire la mort du parti sortant (comme en 1932, 1980 et 2008).

L'économie est un prédicteur bruyant du succès présidentiel

Indice économique de FiveThirtyEight au jour du scrutin, depuis 1880 *, où un score de zéro reflète une économie moyenne, un score positif une économie forte et un score négatif un faible

An Indice économique An Indice économique
1880 +1,37 1948 -0,29
1884 -0,18 1952 +0,21
1888 -0,25 1956 +0.07
1892 +0,71 1960 -0,01
1896 -0,15 1964 +0,70
1900 +0,56 1968 +0,23
1904 -0,23 1972 +0,46
1908 -1,03 1976 +0,26
1912 +0,13 1980 -1,71
1916 +0,75 1984 +0,86
1920 -1,52 1988 +0.09
1924 +0,44 1992 -0,29
1928 +0,15 1996 +0,36
1932 -2,34 2000 +0,36
1936 +1,55 2004 +0,01
1940 +0,77 2008 -1,34
1944 +1,01 2012 -0,10
2016 +0,08

* Les valeurs antérieures aux élections de 1948 sont basées sur des données plus limitées et doivent être considérées comme des estimations approximatives.

Mais, dans l’ensemble, la relation entre les conditions économiques et les performances de l’opérateur historique est assez bruyante. En fait, nous avons constaté que l’économie n’explique qu’environ 30% de la variation des performances de l’opérateur historique, ce qui signifie que d’autres facteurs expliquent les 70% restants.

Nous essayons de tenir compte de certains de ces «autres» facteurs, même si nous avons constaté qu’ils ne font qu’une petite différence. Par exemple, nous tenons également compte du fait que le président est un titulaire élu (comme Trump cette année ou Barack Obama en 2012), un titulaire qui a suivi la ligne de succession au pouvoir (comme Gerald Ford en 1976) ou s'il n'y a pas de titulaire à tous (comme en 2008 ou 2016). Nous tenons également compte de la polarisation en fonction de la distance entre les partis dans les votes par appel nominal émis à la Chambre des États-Unis. Les périodes de plus grande polarisation (comme aujourd'hui aux États-Unis) sont associées à des marges électorales plus étroites et également à des impacts plus faibles des conditions économiques et de la fonction.

Une complication supplémentaire est que l'état de l'économie à un moment donné avant l'élection peut ne pas ressembler à ce à quoi il ressemblera finalement en novembre, ce que notre modèle tente de prédire. Ainsi, le modèle fait une prévision simple pour chacune des six variables économiques, qui explique un certain retour à la moyenne, mais est également basée sur les performances récentes du marché boursier (oui, il a un certain pouvoir prédictif) et des enquêtes d'économistes professionnels .

Bien que nous en discuterons plus longuement dans la fonctionnalité qui accompagne notre lancement de prévisions, les prévisions fondamentales ne sont pas nécessairement aussi mauvaises que vous pourriez le penser pour Trump, malgré des chiffres effroyables dans des catégories telles que le PIB. L'une des composantes économiques que le modèle considère (le revenu) a été forte grâce aux subventions gouvernementales sous la forme de la loi CARES, par exemple, et deux autres (l'inflation et la bourse) ont également été raisonnablement favorables.

De plus, Trump est un titulaire élu, l'économie devrait s'améliorer entre le lancement prévu (12 août) et novembre, et la nature polarisée de l'électorat lui limite dans une certaine mesure les dommages. Ainsi, il ne faut pas conclure que Trump est un énorme outsider sur la seule base de l’économie, bien qu’il ne soit pas non plus un favori pour remporter la réélection comme le sont généralement les élus sortants.

Plus le jour du scrutin est proche, plus notre modèle s'appuie sur les sondages

Part du poids attribué aux sondages et aux «fondamentaux», par nombre de jours jusqu'à l'élection

Jours avant l'élection Les sondages Fondamentaux
0 100% 0%
5 97 3
dix 94 6
25 89 11
50 84 16
75 79 21
100 74 26
150 65 35
200 57 43
250 47 53

Cependant, notre modèle attribue relativement peu de poids aux prévisions fondamentales, et le poids finira par tomber à zéro le jour du scrutin. (Bien que les prévisions fondamentales fassent un bon travail de prévision des élections les plus récentes, il y a beaucoup plus d'échecs une fois que vous étendez l'analyse avant 1948. Gardez cela à l'esprit dans le tableau, car le poids attribué est basé sur l'ensemble de données. .) Néanmoins, voici à quel point le modèle pondère les fondamentaux jusqu'aux élections.

À partir du lancement des prévisions à la mi-août, par exemple, le modèle attribue 77% du poids à l'instantané basé sur les sondages et 23% du poids aux fondamentaux. En fait, les fondamentaux aident réellement Trump à la marge (ils ne sont pas bons pour lui, mais ils sont meilleurs que ses sondages), de sorte que le modèle déplace légèrement l'instantané de chaque État vers Trump dans la prévision du résultat du jour du scrutin. . Les États ayant des scores d'élasticité plus élevés sont légèrement plus décalés dans ce processus.

Étape 3: Tenez compte de l'incertitude et simulez l'élection des milliers de fois

Aussi compliqué que cela puisse paraître, tout ce que j’ai décrit jusqu’à présent est, dans un certain sens, la partie la plus facile du développement de notre modèle. Il ne fait aucun doute que Biden est confortablement en avance sur le lancement des prévisions à la mi-août, par exemple, et les choix que l'on fait en utilisant différentes méthodes pour faire la moyenne des sondages ou les combiner avec d'autres données ne changeront probablement pas cette conclusion.

Ce qui est plus délicat, c’est de comprendre comment cela se traduit par une probabilité que Biden ou Trump remportent les élections. C’est le sujet de cette section.

Avant d'aller plus loin, une mise en garde concernant la portée du modèle: il cherche à refléter le vote tel qu'il a été exprimé le jour du scrutin, en supposant qu'il y a des efforts raisonnables pour permettre aux citoyens éligibles de voter et de compter tous les bulletins légaux, et que les électeurs sont attribués au gagnant du vote populaire dans chaque État. Cela fait ne pas tenir compte de la possibilité de manigances extraconstitutionnelles de la part de Trump ou de quiconque, comme essayer d'empêcher le comptage des bulletins de vote par correspondance.

Cela fait ne pas signifie qu'il est prudent de supposer que ces règles et normes seront respectées. (Si nous étions sûrs qu'ils seraient respectés, cet avertissement ne serait pas nécessaire!) Mais ce n'est tout simplement pas du ressort du type d'analyse statistique que nous menons dans notre modèle pour déterminer la probabilité qu'ils le feront ou non. être respecté.

Nous pensons cependant que des sondages et des modèles bien construits peuvent fournir une référence utile si des tentatives de manipulation de l'élection se produisent. Par exemple, un candidat (dans un état où les résultats sont incomplets parce que les bulletins de vote par correspondance n'ont pas encore été comptés) se déclarant vainqueur dans un état où le modèle leur avait donné 0,4% de chances de gagner devrait être considéré avec plus de suspicion qu'un. où ils avaient eu 40 pour cent de chances d'entrer (bien qu'une chance de 40 pour cent de gagner ne soit en aucun cas une chose sûre non plus, évidemment).

Cette clause de non-responsabilité étant écartée, voici les quatre types d'incertitude que le modèle tente de prendre en compte:

  1. Dérive nationaleou dans quelle mesure les prévisions nationales globales pourraient changer d'ici le jour du scrutin.
  2. Erreur du jour des élections nationales, ou combien notre prévision finale du vote populaire national pourrait être décalée le jour même du scrutin.
  3. Erreur d'état corrélée, qui reflète des erreurs qui pourraient se produire dans plusieurs États selon des lignes géographiques ou régionales – par exemple, comme cela était pertinent en 2016, une sous-performance systématique par rapport aux sondages pour le candidat démocrate dans le Midwest.
  4. Erreur spécifique à l'état, une erreur relative à notre prévision qui n'affecte qu'un seul état.

Le premier type d'erreur, dérive nationale, est probablement la plus importante depuis le lancement – c'est-à-dire que la principale raison pour laquelle Biden pourrait ne pas gagner malgré une avance assez large dans les sondages est que la course pourrait changer d'ici novembre.

La dérive nationale est calculée comme suit:

Constante x (jours avant l'élection) ^ ⅓ x Indice d'incertitude

Autrement dit, il est fonction de la racine cubique du nombre de jours jusqu’à l’heure des élections, l’indice d’incertitude de cinq trente-huit, que je décrirai dans un instant. (Notez que l'utilisation de la racine cubique implique que les sondages ne deviennent pas plus précis à un rythme linéaire, mais plutôt qu'il y a une forte augmentation de la précision vers la fin d'une élection. En d'autres termes, août est encore trop tôt pour le scrutin va.)

L'indice d'incertitude est une nouveauté cette année, bien qu'il reflète un certain nombre de choses que nous avons faites auparavant, comme la comptabilisation du nombre d'électeurs indécis. Dans l'esprit de notre indice économique, il contient également un certain nombre de mesures qui sont historiquement corrélées à une plus ou moins grande incertitude, mais qui sont également corrélées entre elles de manière complexe. Et dans des circonstances comme celles-ci (sans parler de la petite taille de l'échantillon des élections présidentielles), nous pensons qu'il est préférable d'utiliser un mélange également pondéré de toutes les mesures raisonnables plutôt que de choisir et de ne choisir qu'une ou deux mesures.

Les composantes de notre indice d'incertitude sont les suivantes:

  1. Le nombre d'électeurs indécis dans les sondages nationaux. Plus d'électeurs indécis signifie plus d'incertitude.
  2. Le nombre d'électeurs indécis et de tiers dans les sondages nationaux. Plus d'électeurs tiers signifie plus d'incertitude.
  3. La polarisation, telle que mesurée ailleurs dans le modèle, est basée sur la distance entre les partis lors des votes par appel nominal émis à la Chambre des États-Unis. Plus de polarisation signifie moins d'incertitude car il y a moins d'électeurs swing.
  4. La volatilité de la moyenne nationale des sondages. La volatilité a tendance à se prédire, de sorte qu'une moyenne de sondage stable a tendance à rester stable.
  5. Le volume global des sondages nationaux. Plus de sondages signifie moins d'incertitude.
  6. L'ampleur de la différence entre l'instantané national basé sur les sondages et les prévisions fondamentales. Un écart plus large signifie plus d'incertitude.
  7. L'écart type des variables composantes utilisées dans l'indice économique FiveThirtyEight. Plus de volatilité économique signifie plus d'incertitude globale dans les prévisions.
  8. Le volume des principales nouvelles, mesuré par nombre de gros titres du New York Times au cours des 500 derniers jours, les jours plus récents ayant pesé plus lourdement. Plus de nouvelles signifie plus d'incertitude.

En 2020, les mesures n ° 1 à 5 impliquent toutes une incertitude inférieure à la moyenne. There aren’t many undecided voters, there are no major third-party candidates, polarization has been high and polls have been stable. Measure No. 6 suggests average uncertainty. But metrics No. 7 and 8 imply extremely high uncertainty; there has been a ton of news related to COVID-19 and other major stories, like the protests advocating for police reform in response to the death of George Floyd — not to mention the impeachment trial of Trump earlier this year. Likewise, there has been as much volatility in economic data as at any time since the Great Depression.

On the one hand, the sheer number of uncertainties unique to 2020 indicate the possibility of a volatile election, but on the other hand, there are also a number of measures that signal lower uncertainty, like a very stable polling average. So when we calculate the overall degree of uncertainty for 2020, our model’s best guess is that it is about average relative to elections since 1972. That average, of course, includes a number of volatile elections such as 1980, 1988 and 1992, where there were huge swings in the polls over the final few months of the campaign, along with elections such as 2004 and 2012 where polls were pretty stable. As voters consume even more economic- and pandemic-related news — and then experience events like the conventions and the debates — it’s not yet clear whether the polls will remain stable or begin to swing around more.

It’s also not entirely clear how this might all translate into the national Election Day error — that is, how far off the mark our final polling averages are — either. In calculating Election Day error, we use a different version of the uncertainty index that de-emphasizes components No. 6, 7 and 8, since those components pertain mostly to how much we expect the polls to change between now and the election, rather than the possibility of an Election Day misfire.

Still, our approach to calculating Election Day error is fairly conservative. In order to have a larger sample size, the calculation is based on the error in final polls in elections since 1936, rather than solely on more recent elections. While polls weren’t as far off the mark in 2016 as is generally reputed (national polls were fairly accurate, in fact), it’s also not clear that the extremely precise polls in the final weeks of 2004, 2008 and 2012 will be easy to replicate given the challenges in polling today. Given the small sample sizes, we also use a fat-tailed distribution for many of the error components, including the national Election Day error, to reflect the small — but not zero — possibility of a larger error than what we’ve seen historically.

There could also be some challenges related to polling during COVID-19. In primary elections conducted during the pandemic, for instance, turnout was hard to predict. In some ways, the pandemic makes voting easier (expanded options to vote by mail in many states), but it also makes it harder in other ways (it’s difficult to socially distance if you must vote in person).

This is a rough estimate because there are a lot of confounding variables — including the end of the competitive portion of the Democratic presidential primary — but we estimate that the variability in turnout was about 50 percent higher in primary elections conducted after the pandemic began in the U.S. than those conducted beforehand. Empirically, we know that states that experience a sharp change in turnout from one cycle to the next are harder to forecast, too. So we estimate that a 50 percent increase in error when predicting turnout will result in a 20 percent increase in error when predicting the share of the vote each party receives.

Therefore, we increase national Election Day error, correlated state error and state-specific error by 20 percent relative to their usual values because of how the coronavirus could affect turnout and the process of voting. Note that this still won’t be enough to cover extraordinary developments such as mail ballots being impounded. But it should help to reflect some of the additional challenges in polling and holding an election amidst a pandemic.

When it comes to simulating the election — we’re running 40,000 simulations each time the model is updated — the model first picks two random numbers to reflect national drift (how much the national forecast could change) and national Election Day error (how off our final forecast of the national popular vote could be) that are applied more or less uniformly to all states. However, even if you somehow magically knew what the final national popular vote would be, there would still be additional error at the state level. A uniform national swing would not have been enough to cost Clinton the Electoral College in 2016, for example. But underperformance relative to the polls concentrated in the Midwestern swing states did.

In fact, we estimate that at the end of the campaign, most of the error associated with state polling is likely to be correlated with errors in other states. That is to say, it is improbable that there would be a major polling error in Michigan that wouldn’t also be reflected in similar states such as Wisconsin and Ohio.

Therefore, to calculate correlated polling error, the model creates random permutations based on different demographic and geographic characteristics. In one simulation, for instance, Trump would do surprisingly well with Hispanic voters and thus overperform in states with large numbers of Hispanics. In another simulation, Biden would overperform his polls in states with large numbers of Catholics. The variables used in the simulations are as follows:

  • Race (white, Black, Hispanic, Asian)
  • Religion (evangelical Christians, mainline protestants, Catholic, Mormon, other religions, atheist/nonreligious)
  • A state’s partisan lean index in 2016 and in 2012
  • Latitude and longitude
  • Region (North, South, Midwest, West)
  • Urbanization
  • Median household income
  • Median age
  • Le sexe
  • Education (the share of the population with a bachelor’s degree or higher)
  • Immigration (the share of a state that is part of its voting-eligible population)
  • The COVID-19 severity index (see Step 2)
  • The share of a state’s vote that is expected to be cast by mail

One mathematical property of correlated polling errors is that states with demographics that resemble those of the country as a whole tend to have less polling error than those that don’t. Underestimating Biden’s standing among Mormons wouldn’t cause too many problems in a national poll, or in a poll of Florida, for example. But it could lead to a huge polling error in Utah. Put another way, states that are outliers based on some combination of the variables listed above tend to be harder to predict.

Finally, the model randomly applies some residual, state-specific error in each state. This tends to be relatively small, and is primarily a function of the volume of polling in each state, especially in states that have had no polling at all. If you’re wondering why Trump’s chances are higher than you might expect in Oregon, for example, it’s partly because there have been no polls there as of forecast launch.

Odds and ends

Whew — that’s pretty much it! But a few random bullet points that don’t fit neatly into the categories above.

  • The model accounts for the fact that Maine and Nebraska award one electoral vote each to the winner of each congressional district. In fact, these congressional districts have their own forecast pages, just as the states do. For the most part, though, the statewide forecasts in Maine and Nebraska just reflect the sum of the district forecasts. However, because not all polls provide district-level breakdowns in these states, the model also makes inferences from statewide polls of Maine and Nebraska, too. In total, the model calculates a forecast in 54 jurisdictions: the two congressional districts in Maine, the three in Nebraska, the other 48 states and Washington, D.C.
  • In 2016, as well as in backtesting the model in certain past years (i.e., 1980, 1992) we designated “major” third-party candidates such as Gary Johnson and Ross Perot. We defined major as (i) a candidate who is on the ballot almost everywhere, (ii) who is included in most polls and (iii) who usually polls in at least the mid-to-high single digits. There is no such candidate in 2020.
  • However, we faire predict votes for “other” candidates in each state. The predictions are based on how many third-party candidates appear on the ballot in the state, whether write-in votes are permitted, how much of the vote a state has historically given to third-party candidates, and how competitive the state is (third-party candidates historically receive fewer votes in swing states).
  • Electoral College ties (269-269) are listed as such in the model output. This is a change from past years, where we used various methods to break the ties. We do not account for the possibility of faithless electors or candidates other than Trump and Biden winning electoral votes.

Got any other questions or see anything that looks wrong? Please drop us a line.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *