Colabore con el blog Estadistica

viernes, 1 de abril de 2016

Microsoft R Server, la plataforma analítica de datos basada en R

El análisis de datos, la estadística, la tecnología y la informática van muy relacionadas. En estos tiempos de análisis masivo de datos no se concibe una sin la otra. El Big Data ha llegado para quedarse en nuestras vidas. Las grandes corporación están dando pases al frente para no perder mercado y posicionarse para comer el mayor trozo de pastel posible. 

Microsoft ha presentado Microsoft R Server, su plataforma de analítica de datos empresarial, escalable y segura, basada en R, el lenguaje de programación para estadística y análisis predictivo más usado en el mundo. 

El nuevo Microsoft R Server soporta una gran variedad de sistemas estadísticos de Big Data, modelización predictiva y capacidades de machine learning. La compañía ofrece R Server a través de múltiples plataformas, permitiendo a los clientes empresariales acceder a sistemas analíticos avanzados sin importar si usan Hadoop (Hortonworks, Cloudera y MapR), Linux (Red Hat y SUSE), o Teradata. Para Windows, Microsoft R Server estará incluido en SQL Server 2016. Microsoft también ha anunciado el lanzamiento de una edición para desarrolladores con todas las características de la versión comercial que puede descargarse de forma totalmente gratuita. Para estudiantes, Microsoft R Server también está disponible para su uso académico a través del programa Microsoft DreamSpark.

Además, Microsoft sigue fiel a su compromiso de ofrecer soporte al proyecto open-source de R con el lanzamiento de Microsoft R Open, que mejora el rendimiento del antiguo Revolution R Open desarrollado por Revolution Analytics.

martes, 12 de enero de 2016

Teoría del Análisis de Correlación

Lo que hay que saber previamente.
  • Las variables deben ser numéricas.
  • Distribuciones Bidimensionales: surgen cuando se consideran simultáneamente dos caracteres de una misma población o muestra. En este caso a cada elemento observado le corresponde un par de valores. Por ejemplo, con indicadores económicos o demográficos podemos estudiar si existe correlación entre la esperanza de vida y el porcentaje de alfabetización entre los datos de los países del mundo.
  • La covarianza: La covarianza de una variable bidimensional es la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas. Es de gran importancia es este análisis, no tanto por el valor que pueda tomar si no por su signo que indica el sentido de la variación conjunta de las variables que estamos considerando. Si la covarianza es positiva, ambas variables varían en el mismo sentido alrededor de sus medias.
La correlación trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional. 
Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas. El coeficiente de correlación intenta medir la intensidad con que dos variables están relacionadas.

Tipos de correlación:
Si r=1 existe correlación perfecta positiva y la relación entre ambas variables es exacta y positiva, variando ambas variables en el mismo sentido (al aumentar o disminuir una aumenta o disminuye la otra).
Si r=-1 existe correlación perfecta negativa y la relación entre ambas variables es exacta y negativa, variando ambas en el sentido opuesto (al aumentar una disminuye la otra y al disminuir una aumenta la otra).
Si r=0 la correlación es nula y las variables no están asociadas.
Si 0 < r < 1 la correlación es positiva, pero el grado de asociación entre las dos variables será mayor a medida que r se acerca más a 1, y será menor a medida que r se acerca más a cero. Si -1 < r < 0 la correlación es negativa, pero el grado de asociación entre las dos variables será mayor a medida que r se acerca más a -1 y será menor a medida que r se acerca más a cero. El grado de correlación indica la proximidad que hay entre los puntos de la nube de puntos. 

Se pueden dar dos tipos: 

1. Correlación fuerte: La correlación será fuerte cuanto más cerca estén los puntos de la recta. 
2. Correlación débil: La correlación será débil cuanto más separados estén los puntos de la recta.

miércoles, 30 de diciembre de 2015

Estadísticas de la esperanza de vida en España

Con motivo del fin de año me gustaría escribir unas breves notas sobre la estadística de la esperanza de vida, es un datos interesante ya que resume como la población está influenciada por factores como la alimentación, higiene, sanidad, etc. La inmortalidad es algo que preocupa a la humanidad y aunque vamos avanzando poco a poco y grandes empresas están invirtiendo en buscar el secreto de la eterna juventud, los datos, a día de hoy anuncian que aún estamos lejos de vivir 500 años. 

  • Los últimos datos de esperanza de vida publicados en España por el Instituto Nacional de Estadística (INE) son del año 2014 e indican que la esperanza de vida de los españoles es de 82,98 años.
  • Si usted o su padre, o su abuelo tienen 80 años y está leyendo esto no se preocupe, no les queda 2,98 años de vida. ¿No lo entiendes? La esperanza aumenta en 9,4 años al llegar a los 80 años, es decir, es muy probable que supere los 90 años.
  • ¿Y por sexo? Las mujeres viven más que los hombres. 85,71 años ellas y 80,17 ellos.
  • ¿No está mal verdad? Que sepas que solo las mujeres japonesas viven más que las españolas. Hasta los 87 años las niponas.
  •  
  • "Si durante los últimos 100 años hemos conseguido vivir unos 40 años más ¿Por qué no vamos a ganar otros 40 en el próximo siglo?” James Vaupel - demógrafo estadounidense.
  • ¿quieres saber en qué paises se vive más? 
 


    Data from World Bank

jueves, 10 de septiembre de 2015

La paradoja de Simpson en la estadística

La paradoja de Simpson no es un capítulo de la popular serie de animación de Matt Groening, la wikipedia la define como una paradoja en la cual una tendencia que aparece en varios grupos, desaparece cuando estos grupos se agregan en uno solo y además surge la tendencia contraria para los datos agregados.
Puede parecer un poco complejo, pero con un ejemplo se puede entiende fácilmente en qué consiste la paradoja de Simpson. Los resultados de las admisiones para el verano de 1973 en la universidad de California Berkeley mostraban los siguientes resultados:



Solicitudes Admisiones
Hombres 8442 44%
Mujeres 4321 35%


Aparentemente los hombres solicitantes tenían mayor probabilidad de ser admitidos que las mujeres y que la diferencia era tal que no era posible que fuera debida al azar. ¿Nos encontramos ante un caso de discriminación?

En la investigación se desagregó las admisiones por departamento:


Departamento Hombres Mujeres
Solicitudes Admisiones Solicitudes Admisiones
A 825 62% 108 82%
B 560 63% 25 68%
C 325 37% 593 34%
D 417 33% 375 35%
E 191 28% 393 24%
F 272 6% 341 7%

En 4 de 6 departamentos, se han seleccionado a más mujeres qué hombres. Las mujeres solían presentar solicitudes en campos competitivos con bajo porcentaje de admisiones (tales como el departamento de lengua inglesa) mientras que los hombres solían presentar en departamentos con menor competencia y mayor porcentaje de admisiones.

La diferencia entre las muestras de los diferentes departamentos provoca que al calcular de forma global el % de admitidos, provoque la aparente contradicción.

Esta paradoja viene explicada en el libro Causality. Lectura recomentada.