En víspera del debate, AMLO eleva su ventaja en las encuestas, tiene un 85% probabilidades de ganar

21 abril, 2018 12 Horas GR

Una nueva predicción electoral del periódico EL PAÍS coloca al líder de Morena como presidente más probable (85%), seguido de Ricardo Anaya (12%) y José Antonio Meade (3%)

EL PAÍS / El promedio de encuestas aumenta la ventaja de Andrés Manuel López Obrador, candidato de la coalición Juntos Haremos Historia, que se coloca primero con alrededor del 43% de los votos, seguido de Ricardo Anaya (28%) y José Antonio Meade (22%). El candidato de la alianza de Morena, Encuentro Social y el Partido del Trabajo es un favorito más claro rumbo a las presidenciales del 1 de julio.

De acuerdo al modelo electoral de EL PAÍS, López Obrador tiene un 85% de opciones de ganar la presidencia, el candidato de Por México al Frente, Ricardo Anaya, un 12% y José Antonio Meade, del PRI, Partido Verde y Nueva Alianza, un 3%. Eso convierte al candidato de Morena en la opción con más probabilidades y al aspirante del Frente en su principal rival. El priista Meade solo se impone en una de cada 30 simulaciones; Anaya al menos en una de cada diez.

Es importante interpretar bien estas probabilidades y la incertidumbre que representan. La victoria de López Obrador es tan probable como lanzar un dado y evitar el seis. Pero eso no es una certeza. Sirve de referencia una estadística deportiva: la derrota de López Obrador sería tan probable como ver fallar un penalti a Cristiano Ronaldo.

Estos pronósticos se calculan a partir de encuestas, usando la metodología de nuestros modelos electorales para Francia, Reino Unido o España (ver detalles al final). Los modelos convierten las encuestas en predicciones probabilísticas después de estudiar la precisión histórica de miles de sondeos. En el caso de México, el modelo asume un error medio de 3,5 puntos por candidato, que es mayor ahora porque faltan dos meses para los comicios. El margen de error hoy supera los 16 puntos para un candidato con el 40% de votos. Por eso López Obrador es favorito —con ese 85% de probabilidad—, pero no tiene garantizada su victoria.

La tendencia, a favor de López Obrador

El candidato de Morena ha aumentado sus opciones de victoria desde el 31 de marzo del 79% al 85%. La razón es doble. Le ayuda que se acerque la votación —porque se reduce el espacio para las sorpresas—, pero también su evolución: López Obrador ha subido dos puntos en el promedio de encuestas para pasar del 41% al 43% de votos.

El líder de Morena, que está en su tercera campaña presidencial consecutiva después de las de 2006 y 2012, es el único en ascenso desde febrero. Allí se truncó la tendencia positiva de Ricardo Anaya, su principal competidor, quien dedicó tiempo de su campaña a defenderse de las acusaciones de la Fiscalía en un oscuro caso relacionado a una compraventa de una nave industrial. La tendencia positiva de López Obrador, además, no se debe a unas pocas encuestas, sino que se refleja en los datos de todas las empresas demoscópicas del promedio.

Hemos analizado datos de nueve encuestadoras que hicieron dos o más sondeos desde diciembre, y las nueve han observado un crecimiento de López Obrador en su último sondeo. Con Ricardo Anaya ocurre lo contrario: las seis más recientes le vieron retroceder. José Antonio Meade se vio más o menos estancado en esos sondeos. Esta posición lo ha llevado a aliarse con personajes secundarios, como el exsenador Armando Ríos Piter, quien buscaba llegar a la boleta vía una candidatura sin partido.

No obstante, faltan aún dos meses y las encuestas todavía podrían moverse mucho, como hicieron por ejemplo en 2012. En abril de aquel año los sondeos daban 24 puntos de ventaja a Enrique Peña Nieto sobre López Obrador, pero en junio esa distancia se redujo hasta los diez puntos y el priista acabó ganando la elección sólo por siete.

Metodología del modelo. Las predicciones las produce un modelo estadístico basado en sondeos y en su precisión histórica. El modelo es similar al que usamos en Francia, Reino Unido o Cataluña. Funciona en tres pasos: 1) agregar y promediar las encuestas en México, 2) incorporar la incertidumbre esperada, y 3) simular 20.000 elecciones presidenciales para calcular probabilidades.

Paso 1. Promediar las encuestas. Nuestro promedio tienen en cuenta docenas de sondeos para mejorar su precisión. Los datos han sido recopilados en su mayoría por la web Oraculus.mx. El promedio está ponderado para dar distinto peso a cada encuesta según tres factores: el tamaño de la muestra, la casa encuestadora y la fecha.

Peso por muestra. Las encuestas con más entrevistas reciben más peso, según una ley decreciente (pasado cierto umbral, hacer más entrevistas aporta poco).

Efecto de la casa encuestadora. La mayoría de encuestadoras tienden a dar mejores resultados a un candidato de forma sistemática. Es algo razonable: si usan métodos e hipótesis diferentes, es normal que sus desviaciones sean constantes. El problema es que estos efectos mueven el promedio artificialmente a corto plazo. Una opción para evitarlo es calcular los «efectos casa», la desviación sistemática de cada encuestadora con cada candidato. Después, al promediar las encuestas, sustraemos (parte de) esa desviación del dato de la encuestadora.

Encuestas repetidas. Ponderamos a la baja las encuestas repetidas de un mismo encuestador. La idea es sencilla: no queremos que una empresa que haga muchas encuestas domine el promedio. Al calcular el promedio en una fecha, la encuesta más cercana de cada encuestador tiene peso 1, y el resto un peso reducido.

Peso por fecha. El último factor es el más importante: queremos dar más peso a las encuestas recientes al calcular el promedio. Para conseguir eso asignamos pesos a los sondeos según una ley decreciente exponencial (por ejemplo, en este promedio una encuesta de hace 15 días recibe la mitad de peso que una encuesta de hoy). También definimos una franja de exclusión y eliminamos completamente las encuestas con más de 60 días de antigüedad.

Paso 2. Incorporar la incertidumbre de las encuestas. Este es el paso más complicado y más importante. Necesitamos estimar la precisión esperada de los sondeos en México. ¿De qué magnitud son los errores habituales? ¿Cómo de probable es que se produzcan errores de 2, 3 o 5 puntos? Para responder esas preguntas hemos estudiado cientos de encuestas en México y miles internacionales.

Calibrar los errores esperados. Primero he estimado el error de las encuestas en México. He construido una base de datos con encuestas de cinco elecciones desde 2000 —incluyendo las tres presidenciales. El error absoluto medio (MAE) de los promedios de encuestas en México ha rondado los 3 puntos por partido o candidato. Eso significa que fueron habituales desviaciones de 3 o 4 puntos y que el margen de error se acerca a los 8 puntos. Pero tres elecciones son pocas para extraer conclusiones fuertes, especialmente si miramos el acierto de los sondeos en la región. Nuestro análisis de 24 votaciones en Latinoamérica eleva el error MAE a 4 puntos. Por eso, queriendo ser cautos, nuestro modelo asume un MAE de 3,5 puntos para México.

Esos errores dependen al menos de dos cosas: del tamaño del candidato/partido y de la cercanía de las elecciones. Para tener en cuenta esos dos factores hemos recurrido a la base de datos de Jennings y Wlezien, recientemente publicada en Nature. Hemos analizado los errores de más de 4.100 encuestas en 241 elecciones de 19 países occidentales. Así hemos construido un modelo sencillo que estima el error MAE del promedio de votos estimado por las encuestas para cada partido, teniendo en cuenta: i) su tamaño (es más fácil estimar un partido que ronda el 5% en votos que uno que supera el 30%), y ii) los días que faltan hasta las elecciones (porque las encuestas mejoran al final).

Distribución. Para incorporar la incertidumbre al voto de cada partido en cada simulación utilizo uno distribución multivariable. Uso distribuciones t-student en lugar de normales para que tengan colas más largas (curtosis): eso hace más probable que sucedan eventos muy extremos. Las ventajas de esa hipótesis la explica Nate Silver. El nivel de curtosis lo he estimado con la base de datos. Luego defino la matriz de covarianzas de estas distribuciones para que i) la suma de los votos no sobrepase el 100% (una idea de Chris Hanretty), y ii) consideren correlaciones entre candidatos cercanos (tomando datos de duelos cara a cara y de segundas opciones). Por último, hay que escalar la amplitud de las matrices de covarianza para que las distribuciones de voto que resultan al final tengan el MAE y la amplitud esperados según la calibración.

Paso 3. Simular. El último paso consiste en ejecutar el modelo 20.000 veces. Cada iteración es una simulación de las elecciones con porcentajes de voto que varían según la distribución definida en el paso anterior. Los resultados en esas simulaciones permiten calcular las probabilidad que tiene cada candidato de ganar.

Por qué encuestas. El modelo se basa por entero en encuestas. Existe la percepción de que los sondeos no son fiables, pero a nivel nacional fallaron por pocos puntos incluso con Trump y con el Brexit. En otras elecciones recientes dieron menos que hablar porque estuvieron acertados (Francia, Países Bajos, País Vasco, Galicia, Cataluña). Pese a la creencia popular, lo cierto es que las encuestas no lo han hecho mal últimamente. Las encuestas raramente son perfectas, pero no existe una alternativa que haya demostrado mejor capacidad de predicción.

Tomado de EL PAÍS

Comparte esto: