jueves, 10 de septiembre de 2015

La paradoja de Simpson en la estadística

La paradoja de Simpson no es un capítulo de la popular serie de animación de Matt Groening, la wikipedia la define como una paradoja en la cual una tendencia que aparece en varios grupos, desaparece cuando estos grupos se agregan en uno solo y además surge la tendencia contraria para los datos agregados.
Puede parecer un poco complejo, pero con un ejemplo se puede entiende fácilmente en qué consiste la paradoja de Simpson. Los resultados de las admisiones para el verano de 1973 en la universidad de California Berkeley mostraban los siguientes resultados:



Solicitudes Admisiones
Hombres 8442 44%
Mujeres 4321 35%


Aparentemente los hombres solicitantes tenían mayor probabilidad de ser admitidos que las mujeres y que la diferencia era tal que no era posible que fuera debida al azar. ¿Nos encontramos ante un caso de discriminación?

En la investigación se desagregó las admisiones por departamento:


Departamento Hombres Mujeres
Solicitudes Admisiones Solicitudes Admisiones
A 825 62% 108 82%
B 560 63% 25 68%
C 325 37% 593 34%
D 417 33% 375 35%
E 191 28% 393 24%
F 272 6% 341 7%

En 4 de 6 departamentos, se han seleccionado a más mujeres qué hombres. Las mujeres solían presentar solicitudes en campos competitivos con bajo porcentaje de admisiones (tales como el departamento de lengua inglesa) mientras que los hombres solían presentar en departamentos con menor competencia y mayor porcentaje de admisiones.

La diferencia entre las muestras de los diferentes departamentos provoca que al calcular de forma global el % de admitidos, provoque la aparente contradicción.

Esta paradoja viene explicada en el libro Causality. Lectura recomentada.