Blog de Estadística: 2015

miércoles, 30 de diciembre de 2015

Estadísticas de la esperanza de vida en España

Con motivo del fin de año me gustaría escribir unas breves notas sobre la estadística de la esperanza de vida, es un datos interesante ya que resume como la población está influenciada por factores como la alimentación, higiene, sanidad, etc. La inmortalidad es algo que preocupa a la humanidad y aunque vamos avanzando poco a poco y grandes empresas están invirtiendo en buscar el secreto de la eterna juventud, los datos, a día de hoy anuncian que aún estamos lejos de vivir 500 años.

Los últimos datos de esperanza de vida publicados en España por el Instituto Nacional de Estadística (INE) son del año 2014 e indican que la esperanza de vida de los españoles es de 82,98 años.

Si usted o su padre, o su abuelo tienen 80 años y está leyendo esto no se preocupe, no les queda 2,98 años de vida. ¿No lo entiendes? La esperanza aumenta en 9,4 años al llegar a los 80 años, es decir, es muy probable que supere los 90 años.

¿Y por sexo? Las mujeres viven más que los hombres. 85,71 años ellas y 80,17 ellos.

¿No está mal verdad? Que sepas que solo las mujeres japonesas viven más que las españolas. Hasta los 87 años las niponas.

"Si durante los últimos 100 años hemos conseguido vivir unos 40 años más ¿Por qué no vamos a ganar otros 40 en el próximo siglo?” James Vaupel - demógrafo estadounidense.

¿quieres saber en qué paises se vive más?

Life expectancy at birth, total (years)

Data from World Bank

jueves, 10 de septiembre de 2015

La paradoja de Simpson en la estadística

La paradoja de Simpson no es un capítulo de la popular serie de animación de Matt Groening, la wikipedia la define como una paradoja en la cual una tendencia que aparece en varios grupos, desaparece cuando estos grupos se agregan en uno solo y además surge la tendencia contraria para los datos agregados.

Puede parecer un poco complejo, pero con un ejemplo se puede entiende fácilmente en qué consiste la paradoja de Simpson. Los resultados de las admisiones para el verano de 1973 en la universidad de California Berkeley mostraban los siguientes resultados:

	Solicitudes	Admisiones
Hombres	8442	44%
Mujeres	4321	35%

Aparentemente los hombres solicitantes tenían mayor probabilidad de ser admitidos que las mujeres y que la diferencia era tal que no era posible que fuera debida al azar. ¿Nos encontramos ante un caso de discriminación?

En la investigación se desagregó las admisiones por departamento:

Departamento	Hombres		Mujeres
Departamento	Solicitudes	Admisiones	Solicitudes	Admisiones
A	825	62%	108	82%
B	560	63%	25	68%
C	325	37%	593	34%
D	417	33%	375	35%
E	191	28%	393	24%
F	272	6%	341	7%

En 4 de 6 departamentos, se han seleccionado a más mujeres qué hombres. Las mujeres solían presentar solicitudes en campos competitivos con bajo porcentaje de admisiones (tales como el departamento de lengua inglesa) mientras que los hombres solían presentar en departamentos con menor competencia y mayor porcentaje de admisiones.

La diferencia entre las muestras de los diferentes departamentos provoca que al calcular de forma global el % de admitidos, provoque la aparente contradicción.

Esta paradoja viene explicada en el libro Causality. Lectura recomentada.

viernes, 19 de junio de 2015

La Campana de Gauss como herramienta estadística para evitar el fraude

Como bien nos ilustra la Wikipedia, la distribución normal, también conocida como distribución de Gauss o distribución Gaussiana, es una distribución continua de probabilidad. Su importancia está en que permite modelar fenómenos naturales, sociólogos o psicológicos. Su gráfica tiene forma de campana, y es simétrica respecto a un parámetro estadístico.

Veamos su uso en caso de fraude, el siguiente ejemplo ocurrió en un examen para acceder a un puesto de la administración pública. Se presentaron 670 aspirantes y ante la sospecha de anomalías por preguntas imposibles de responder, se decidió realizar un sencillo análisis estadístico utilizando la campana de Gauss:

Efectivamente, los 670 resultados del examen se distribuyen como la distribución Normal. El 81,5% de los aspirantes obtuvieron de 4 a 9.9 respuestas acertadas. Sin embargo hay 6 personas con notas especialmente altas. Alertados se ha descubierto que 5 de esas 6 personas tenían relación de parentesco con escoltas de políticos en el gobierno…

Una vez más la estadística al servicio del fraude, no permite demostrar nada pero si pone sobre la pista.

martes, 28 de abril de 2015

Test Estadísticos: Test de Chi al Cuadrado (Ji-Cuadrado)

La prueba de Ji-cuadrado determina si existe asociación entre variables cualitativas. Se utiliza para analizar tablas de contingencia y comparación de proporciones en datos independientes.

Existen diferentes procedimientos estadísticos para el análisis de las tablas de contingencia como la prueba ji-cuadrado, la prueba exacta de fisher, la prueba de McNemar o la prueba Q de Cochran, entre otras. En este artículo se expondrá el cálculo e interpretación de la prueba como método estándar de análisis en el caso de grupos independientes.
La prueba permite determinar si dos variables cualitativas están o no asociadas. Si al final del estudio concluimos que las variables no están relacionadas podremos decir con un determinado nivel de confianza, previamente fijado, que ambas son independientes.

En la investigación médica o de mercados nos encontramos con frecuencia con datos o variables de tipo cualitativo, mediante las cuales un grupo de individuos se clasifican en dos o más categorías mutuamente excluyentes. Las proporciones son una forma habitual de expresar frecuencias cuando la variable objeto de estudio tiene dos posibles respuestas, como presentar o no un evento de interés (enfermedad, compra, , etc.).

martes, 10 de febrero de 2015

Foro Estadístico: diferencias significativas.

Tras publicar varios post sobre Mínimas Diferencias significativas, nos plantean el siguiente problema estadístico que publicamos a continuación:

"He considerado que en mi experimento exiten diferencias significativas con valores de p<0 .05.="" br="">
Utilizando el programa SAS, con el procedimiento Genmod y tras \"convertir\" el estimador en proporción, obtengo que un valor de 80,7% es significativamente diferente (p=0.03) de uno de 64.2%, y sin embargo no es diferente significativamente (p=0.06) de uno que es 63,9%. Evidentemente no hay diferencias significativas (p=0.9) entre 64.2% y 63.9%.

¿A qué se debe esto? He medio leido (pero no entendido) que puede ser debido a que no se toman medias aritméticas o algo así del procedimiento...

¡ Les estaría muy agradecida si pudieran ayudar! ¡GRACIAS!