¿Acertaron las encuestas del 27S? Un repaso a sus cifras y a nuestra predicción

Las elecciones catalanas se presentaban complicadas para los encuestadores. Eran unos comicios excepcionales y es difícil hacer estadística de lo excepcional. Concurrían nuevos partidos, la participación se presumía histórica y el sentido del voto era para muchos inédito: un plebiscito. Pero las encuestas hicieron un buen trabajo. Aquí explico por qué.

1. El promedio de sondeos funcionó.

El gráfico compara 20 sondeos con los resultados de las elecciones del domingo. Los sondeos son los de Sigma Dos, GAPS, GESOP, NC Report, Invymark, IBES, Feedback, CIS, Metroscopia, DYM, GAD3, Celeste Tel y My Word.

g1

El promedio de encuestas anticipó la imagen general que dejaron las urnas. JxSí, el PP y CUP fueron bien estimados. Tambien el PSC. La mayor desviación se dió con Ciudadanos y Catalunya Sí que es Pot (CSP). El primero había sido infraestimado y el segundo sobreestimado, justo al revés de lo que pasó en las municipales de mayo.

2. Nuestro modelo fue razonablemente preciso.

Basándome en los sondeos, publiqué dos días antes del 27S un modelo de predicción para las elecciones. El modelo estimaba cuántos diputados lograría cada partido y con qué probabilidad.

A continuación evalúo que tal lo hizo ese modelo. El gráfico compara los diputados de cada partido con las predicciones probabilísticas del modelo.

g2

(Las áreas de color son histogramas y representan la probabilidad que tiene cada partido de lograr cierto número de escaños.)

La precisión del modelo fue notable. Acertó el partido ganador, acertó quién sería segundo y el orden de todos los partidos excepto el PSC y CSP, que se intercambiaron. La predicción más probable se desvió menos de dos escaños para JxSí, PSC, PP, CUP y Unió. Las mayores desviaciones se dieron con Cs y CSP. Pero desde el principio sus resultados eran los más inciertos: sus distribuciones de probabilidad eran las más anchas.

El modelo predijo también los resultados del independentismo. Anticipó que JxSí no tendría mayoría absoluta y que la suma con CUP lograría mayoría de escaños pero no de votos. Sus predicciones mediana para los escaños de JxSí y la CUP casi coinciden con los resultados reales.

Captura de pantalla 2015-09-30 a las 23.48.26

También las predicciones de votos:

g4

Estoy también satisfecho con las predicciones en cada provincia. En Barcelona la precisión fue similar a la general. En Tarragona la predicción de más probabilidad acertó para JxSí, PSC, CUP y Unió. En Lleida, para PSC, PP, CUP, Unió y JxSí. En Girona, para todos los partidos. (Gráficos de Barcelona, Tarragona, Lleida y Girona.)

3. Un reloj parado.

Mi primer objetivo con el modelo es que fuese fiable. Sus predicciones no son audaces ni finísimas: son cautas. Por eso había muchos resultados posibles en el segundo gráfico. No es así por capricho. Es así porque observar las encuestas de los últimos años me sugiere que ésa es la precisión que podemos esperar.

Estos eran los intervalos del 50% de probabilidad que el modelo asignaba a cada partido:

  • JxSí: [59, 67]
  • Cs: [17, 23]
  • CSP: [12, 18]
  • PSC: [11, 17]
  • PP: [11, 15]
  • CUP: [ 6, 10]
  • Unió: [ 0, 3]

Son intervalos amplios e incluso así la mitad de las veces la realidad debía acabar fuera de ellos. Por eso las desviaciones con Ciutadans o CSP no son una sorpresa. Al final, de los siete partidos cinco cayeron dentro de los intervalos. Y aunque no puedo saberlo todavía, creo que la incertidumbre del modelo está bien calibrada.

¿Pero qué significa «bien calibrada»?

Mi modelo respeta el primer principio que enuncia Nate Silver para hacer estimaciones electorales: «Un buen modelo debe ser probabilístico, no determinista». La mayoría de modelos de predicción tienden al exceso de confianza y mi propósito es no caer en ese error. Por eso mi modelo no da predicciones muy concretas si no puede —y generalmente no puede— sino predicciones con distintas probabilidades.

Para calibrar un modelo probabilístico hay que comprobar que sus predicciones aciertan con la probabilidad prevista. Por ejemplo, si mi modelo dice que el partido X tiene un 60% de probabilidades de lograr escaños, quiero que eso suceda un 60% de las veces. Si sucede solo el 10% de las veces el modelo está mal. Pero también está mal si sucede el 95% del tiempo. Ese modelo está mal calibrado.

Podéis pensar en las predicciones meteorológicas. No espero que el hombre del tiempo me diga con certeza si lloverá el sábado. Pero si me dice que la probabilidad de lluvia es del 20%, lo que espero es que acierte cuatro de cada cinco veces.

En resumen, al evaluar la bondad de un modelo probabilístico podemos hablar de dos cosas: de su precisión y de su calibración. Un modelo es muy preciso si dice exactamente qué va a ocurrir. Esos modelos son geniales, pero difíciles de encontrar para fenómenos complejos. Por eso las elecciones se predicen con modelos probabilísticos. Y esos modelos quiero que estén bien calibrados: si me dicen que un suceso tiene una probabilidad del 66%, deberán acertar dos de cada tres veces.

4. Conclusión.

Tras las elecciones el modelo de predicción sale reforzado. Sus limitaciones siguen ahí —y de ellas hablaré otro día— pero sus predicciones para el 27S fueron bastante precisas.

Si el modelo falló fue más bien por acertar demasiado. Quizás el modelo está ligeramente mal calibrado y fue demasiado conservador. O lo que es más probable: quizás tuvo algo de suerte. Si la razón es una u otra sólo lo sabremos dentro de muchas tiradas, cuando podamos distinguir la estructura del azar.

_____________

También en EL ESPAÑOL:

Nota. Que un modelo probabilístico se demuestre bien calibrado es en esencia otra forma de precisión. Pero para los propósitos de este artículo he creído que la distinción entre precisión y calibración era útil.