lunes, 12 de septiembre de 2016

10 consejos para determinar qué tipo de distribución de datos siguen nuestros datos

  1. Conoce los diferentes tipos de distribución de datos: uniforme discreta, Bernoulli, binomio, binomio negativo, Poisson, geométrica, uniforme continua, normal (curva de campana), exponencial, gamma y beta. 
  2. Realiza una representación gráfica de tus datos.
  3. Descarta primero lo que no puede ser.
  4. Si hay algún pico en el conjunto de datos, no puede ser una distribución uniforme discreta.
  5. Si los datos tienen más de un pico, no es Poisson o binomio.
  6. Si tiene una sola curva, no hay picos secundarios, y tiene una pequeña pendiente en cada lado, podría ser una distribución Poisson o gamma. Pero no podrá ser una distribución uniforme discreta.
  7. Si los datos se distribuyen de manera uniforme, y es sin inclinar hacia un lado, es seguro excluir una distribución gamma o Weibull. 
  8. Si la función tiene una distribución uniforme o un pico en el medio de los resultados graficados, no es una distribución geométrica o una distribución exponencial.
  9. Después de que el tipo de distribución de probabilidad se ha reducido, haz un análisis de R cuadrado de cada posible tipo de distribución de probabilidad. El que tenga el mayor valor R cuadrado es probablemente el correcto.
  10. Elimina un dato atípico. A continuación, vuelve a calcular R cuadrado. Si el mismo tipo de distribución de probabilidad aparece como la coincidencia más cercana, luego hay un alto grado de confianza de que se trate de la distribución de probabilidad correcta para utilizar en el conjunto de datos.

lunes, 5 de septiembre de 2016

R cuadrado o coeficiente de determinación o de correlación múltiple y R cuadrado ajustado

El R cuadrado es una herramienta estadística (un estadístico) que se utiliza en modelos estadísticos como en una regresión para predecir futuros resultados. Por ejemplo, a los inversores permite hacer predicciones sobre el crecimiento o variación de un dato determinado según como se correlaciona con otras variables. El R cuadrado es el indicador que nos permitirá conocer cómo de bien se pueden predecir esos resultados. 

El R2 es el porcentaje de variación de la variable de respuesta que explica su relación con una o más variables predictoras. Por lo general, mientras mayor sea el R2, mejor será el ajuste del modelo a sus datos. El R2 siempre se encuentra entre 0 y 100%. El R-cuadrado también se conoce como el coeficiente de determinación o determinación múltiple (en la regresión lineal múltiple).



El primer modelo de regresión explica 85.5% de la varianza mientras que el segundo explica 22.6%. Mientras mayor sea la varianza que explica el modelo de regresión, más cerca estarán los puntos de los datos de la línea de regresión ajustada.

¿Qué es el R-cuadrado ajustado?
El R2 ajustado es el porcentaje de variación en la variable de respuesta que es explicado por su relación con una o más variables predictoras, ajustado para el número de predictores en el modelo.
Es decir, a medida que incluyamos más variables en el modelo, el R cuadrado aumentará por lo que puede hacernos pensar que el modelo es mejor porque incluye más variables.
Para comprobar si es cierto que nuestro modelo es mejor por la inclusión de nuevas variables debemos analizar el R cuadrado ajustado. 



En la siguiente tabla observamos como con una variable el R cuadrado es del 52%. Al agregar el segundo término, usted observa que el R2 ajustado mejoró, lo que indica que la segunda variable mejoró el modelo. Con el tercer término,  aunque el R2 aumenta, el R2 ajustado no lo hace. Puesto que la tercera variable no mejoró el modelo, podríamos considerar eliminarla del modelo. 


Para saber más sobre el R cuadrado.


viernes, 1 de abril de 2016

Microsoft R Server, la plataforma analítica de datos basada en R

El análisis de datos, la estadística, la tecnología y la informática van muy relacionadas. En estos tiempos de análisis masivo de datos no se concibe una sin la otra. El Big Data ha llegado para quedarse en nuestras vidas. Las grandes corporación están dando pases al frente para no perder mercado y posicionarse para comer el mayor trozo de pastel posible. 

Microsoft ha presentado Microsoft R Server, su plataforma de analítica de datos empresarial, escalable y segura, basada en R, el lenguaje de programación para estadística y análisis predictivo más usado en el mundo. 

El nuevo Microsoft R Server soporta una gran variedad de sistemas estadísticos de Big Data, modelización predictiva y capacidades de machine learning. La compañía ofrece R Server a través de múltiples plataformas, permitiendo a los clientes empresariales acceder a sistemas analíticos avanzados sin importar si usan Hadoop (Hortonworks, Cloudera y MapR), Linux (Red Hat y SUSE), o Teradata. Para Windows, Microsoft R Server estará incluido en SQL Server 2016. Microsoft también ha anunciado el lanzamiento de una edición para desarrolladores con todas las características de la versión comercial que puede descargarse de forma totalmente gratuita. Para estudiantes, Microsoft R Server también está disponible para su uso académico a través del programa Microsoft DreamSpark.

Además, Microsoft sigue fiel a su compromiso de ofrecer soporte al proyecto open-source de R con el lanzamiento de Microsoft R Open, que mejora el rendimiento del antiguo Revolution R Open desarrollado por Revolution Analytics.

martes, 12 de enero de 2016

Teoría del Análisis de Correlación

Lo que hay que saber previamente.
  • Las variables deben ser numéricas.
  • Distribuciones Bidimensionales: surgen cuando se consideran simultáneamente dos caracteres de una misma población o muestra. En este caso a cada elemento observado le corresponde un par de valores. Por ejemplo, con indicadores económicos o demográficos podemos estudiar si existe correlación entre la esperanza de vida y el porcentaje de alfabetización entre los datos de los países del mundo.
  • La covarianza: La covarianza de una variable bidimensional es la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas. Es de gran importancia es este análisis, no tanto por el valor que pueda tomar si no por su signo que indica el sentido de la variación conjunta de las variables que estamos considerando. Si la covarianza es positiva, ambas variables varían en el mismo sentido alrededor de sus medias.
La correlación trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional. 
Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas. El coeficiente de correlación intenta medir la intensidad con que dos variables están relacionadas.

Tipos de correlación:
Si r=1 existe correlación perfecta positiva y la relación entre ambas variables es exacta y positiva, variando ambas variables en el mismo sentido (al aumentar o disminuir una aumenta o disminuye la otra).
Si r=-1 existe correlación perfecta negativa y la relación entre ambas variables es exacta y negativa, variando ambas en el sentido opuesto (al aumentar una disminuye la otra y al disminuir una aumenta la otra).
Si r=0 la correlación es nula y las variables no están asociadas.
Si 0 < r < 1 la correlación es positiva, pero el grado de asociación entre las dos variables será mayor a medida que r se acerca más a 1, y será menor a medida que r se acerca más a cero. Si -1 < r < 0 la correlación es negativa, pero el grado de asociación entre las dos variables será mayor a medida que r se acerca más a -1 y será menor a medida que r se acerca más a cero. El grado de correlación indica la proximidad que hay entre los puntos de la nube de puntos. 

Se pueden dar dos tipos: 

1. Correlación fuerte: La correlación será fuerte cuanto más cerca estén los puntos de la recta. 
2. Correlación débil: La correlación será débil cuanto más separados estén los puntos de la recta.