Los andaluces elegirán este domingo su Parlamento autonómico. En las últimas horas se han publicado sondeos de los institutos DeimosCeleste-telMetroscopia y GAD3El PSOE aventaja con claridad al PP pero no alcanza la mayoría y serán necesarios pactos para gobernar. Esa circunstancia dispara el interés por los resultados de las otras fuerzas políticas: Izquierda Unida, UPyD, Podemos y Ciudadanos (Cs). A continuación analizo los sondeos más recientes y llevo a cabo tres simulaciones de resultados para discutir cómo podría quedar configurado el nuevo Parlamento andaluz.

Empezaré revisando las estimaciones de voto. El primer gráfico compara los datos de la encuesta que elaboró el CIS durante el mes de febrero con un promedio de los sondeos del mes de marzo. Según estos datos, durante las últimas semanas Podemos habría perdido apoyos y Cs los habría ganado.

fig 1

(Nota: los datos recopilados de todas las encuestas se los debo a Basilio Moreno.)

El gráfico anterior resume el dilema que afrontamos al juzgar las encuestas disponibles. La encuesta preelectoral del CIS tiene la mayor muestra a nivel provincial y por tanto más precisión teórica al asignar los escaños. Sus ajustes —la llamada cocina— son los preferidos por muchos. Sin embargo, los datos del CIS tienen varias semanas de antigüedad y otras encuestas más recientes podrían capturar mejor la intención de los votantes.

En este artículo trataré de conciliar ambos detalles usando una simulación propia. Pero antes revisaré las estimaciones que hizo el CIS con sus datos de febrero.

Simulaciones a partir del CIS

En el siguiente gráfico muestro los resultados de una primera simulación a partir del voto estimado por el CIS. Hago 10.000 simulaciones para cada provincia, partiendo del voto en cada una y añadiendo varianza con los márgenes de error aproximados. En el gráfico muestro el total que resulta de agregar los votos de cada provincia.

fig 2

Nota: Las columnas en el gráfico indican la mediana de las 10.000 simulaciones. Las cajas representan la dispersión de las simulaciones son diagramas de caja o «Tukey boxplots» e indican la mediana con una línea gruesa, los cuartiles del 25% y el 75% en los extremos de caja, y sus IQR de 1.5 o intervalo del 99,3% con la línea vertical.

El gráfico siguiente muestra la distribución de escaños de la simulación anterior. La distribución resulta de repartir los escaños de cada provincia según los votos. El reparto se realiza según la ley D’Hondt y aplicando una barrera mínima del 3% de los votos, tal y como manda la ley electoral andaluza.

fig 3b

Los resultados coinciden con la previsión de escaños del CIS. Se le asignan 45 escaños al PSOE, 33 al PP, 22 a Podemos, cuatro a IU y cinco a Ciudadanos. UPyD y el Partido Andalucista quedarían fuera del parlamento. En el gráfico tenéis los intervalos estadísticos para cada partido. El PSOE, por ejemplo, se movería entre 44 y 46 escaños con una probabilidad del 68% y entre 42 y 48 con una probabilidad del 99%.

Pero esta estimación tiene un problema: que los sondeos del CIS se hicieron en febrero y según las encuestas más recientes las intenciones de voto han cambiado. A continuación trataré de incorporar esa información a nuestra estimación.

Una estimación híbrida

La siguiente simulación aspira a combinar lo mejor de los datos del CIS —su buena distribución de votos a nivel provincial— con la información más actualizada de los sondeos que vimos al principio. Al combinar datos de diferentes fuentes y diferentes cocinas, estaremos dando, en cierta forma, una estimación de consenso.

Los resultados de esta simulación híbrida se muestran en el gráfico. De nuevo realizo 10.000 simulaciones para cada provincia. Pero ahora el voto estimado será un promedio de los datos de las siete encuestas de marzo que se traslada a cada provincia según la distribución que observó el CIS. Como ya hice en la simulación anterior, añado variabilidad con los márgenes de error aproximados.

fig 4

Como era de esperar, la distribución de votos es similar a la de nuestro primer gráfico. Lo interesante realmente está en el gráfico siguiente, que nos informa de cómo los votos de marzo se traducen en número de escaños.

fig 5c

Empecemos por ver lo que no cambia: el PSOE se mantendría cerca de los 45 escaños, el PP en torno a 31 o 32 e IU sobre cinco, aunque estos dos últimos partidos podrían ganar y perder algún escaño con facilidad.

Las novedades las protagonizan Podemos y Ciudadanos. Si nos fiamos en las encuestas más recientes, Podemos retrocedería hasta los 16 o 17 escaños y Cs crecería hasta lograr 10 diputados.

Cabe recordar que estoy distribuyendo los votos por provincias según lo medido por el CIS en febrero. No es una estimación perfecta pero es una forma de explotar la información más reciente. Lo mejor sería tener una muestra provincial amplia y actualizada pero no lo tenemos. Lo más parecido es la última encuesta de Metroscopia.

Añadiendo incertidumbre

Antes de terminar, quiero subrayar que los márgenes de error no capturan todas las desviaciones entre un sondeo y la realidad de las urnas. Al informar de su «margen de error», una encuesta está indicando el error de su muestreo: el error que se comete por no preguntar a todos los andaluces, sino sólo a unos pocos. Pero el voto definitivo puede desviarse por muchas razones como explicábamos Pablo Simón y yo en este texto: por efecto de los indecisos, por el voto oculto, por respuestas falsas o por cambios de opinión. Hay personas que dicen que votarán en blanco y al final deciden votar por su partido de siempre. El CIS, Metroscopia, My Word y el resto de las firmas de encuestas intentan corregir estos efectos pero es imposible que lo logren del todo.

Para mostrar la importancia de esos efectos haré una última simulación. De nuevo simulo 10.000 casos para cada provincia y añado varianza según los márgenes de error. Pero ahora añado además otra banda de incertidumbre. La banda la defino asumiendo que cada partido puede ganar (o perder) hasta un diez por ciento de sus apoyos más un 1% del total del censo. La intensidad de esta variación la asumo igual en todas las provincias, porque quiero simular perturbaciones comunes.

Los últimos gráficos muestran cómo pueden variar los resultados al asumir esa incertidumbre. La banda que he fijado es totalmente hipotética. No es fruto de ningún cálculo. Su único fin es evaluar cómo la incertidumbre en los votos se traslada a la distribución de escaños.

Aquí se puede ver esa incertidumbre en la estimación de voto.

fig 6

Aquí se puede ver esa incertidumbre aplicada a la distribución de escaños.

fig 7b

Al añadir incertidumbre a la simulación el reparto de escaños más probable apenas cambia, pero el rango de posibles escenarios es mucho más amplio. El PSOE podría moverse fácilmente entre los 43 y los 48 escaños y el PP entre los 30 y los 34. Podemos podría oscilar entre 15 y 18 diputados, Ciudadanos entre ocho y 11 e Izquierda Unida entre cuatro y seis.

La incertidumbre podría propiciar algunos escenarios extremos. El PSOE podría irse hasta los 53 diputados, Podemos podría superar la veintena de escaños e IU caer hasta los dos. Ciudadanos podría dispararse hasta 14 o quedarse en apenas seis. No son los resultados más probables pero entran dentro de los márgenes —no tan amplios— que di en la última simulación.

Entiendo que esta última simulación puede ser decepcionante para quienes queremos saber qué ocurrirá este domingo. Pero quizás captura mejor que las demás lo que sabemos sobre cómo votarán los andaluces este fin de semana.

* * *

Algunos detalles técnicos. En los tres casos hago 10.000 iteraciones para cada provincia. En cada caso parto siempre de una estimación de voto en cada provincia (la original del CIS o un híbrido del CIS y la media de siete sondeos de marzo). Para generar la variabilidad por muestreo uso una distribución normal de desviación estándar tal que replico los márgenes de error del CIS (truncada para evitar negativos). Los márgenes de error los estimo a partir de la muestra de cada provincia y los porcentajes de voto de cada partido a nivel autonómico (es decir, no uso el peor caso). Los resultados de votos totales los calculo agregando los votos de cada provincia ponderados por población. El reparto de escaños lo hago aplicando la regla D’Hondt y la barrera mínima que fija la ley electoral andaluza. En la tercera simulación, genero un ‘shock’ para cada partido, que en cada una de las 10.000 iteraciones puede ganar (o perder) hasta un 1% del censo ± 0,1 veces los votos del partido en la provincia. Dentro de esa banda, los ‘shocks’ se distribuyen uniformemente. Pero el ‘shock’ es igual para todas las provincias en cada una de las 10.000 iteraciones porque quiero simular perturbaciones comunes a todas ellas.