lunes, 12 de septiembre de 2016

10 consejos para determinar qué tipo de distribución de datos siguen nuestros datos

  1. Conoce los diferentes tipos de distribución de datos: uniforme discreta, Bernoulli, binomio, binomio negativo, Poisson, geométrica, uniforme continua, normal (curva de campana), exponencial, gamma y beta. 
  2. Realiza una representación gráfica de tus datos.
  3. Descarta primero lo que no puede ser.
  4. Si hay algún pico en el conjunto de datos, no puede ser una distribución uniforme discreta.
  5. Si los datos tienen más de un pico, no es Poisson o binomio.
  6. Si tiene una sola curva, no hay picos secundarios, y tiene una pequeña pendiente en cada lado, podría ser una distribución Poisson o gamma. Pero no podrá ser una distribución uniforme discreta.
  7. Si los datos se distribuyen de manera uniforme, y es sin inclinar hacia un lado, es seguro excluir una distribución gamma o Weibull. 
  8. Si la función tiene una distribución uniforme o un pico en el medio de los resultados graficados, no es una distribución geométrica o una distribución exponencial.
  9. Después de que el tipo de distribución de probabilidad se ha reducido, haz un análisis de R cuadrado de cada posible tipo de distribución de probabilidad. El que tenga el mayor valor R cuadrado es probablemente el correcto.
  10. Elimina un dato atípico. A continuación, vuelve a calcular R cuadrado. Si el mismo tipo de distribución de probabilidad aparece como la coincidencia más cercana, luego hay un alto grado de confianza de que se trate de la distribución de probabilidad correcta para utilizar en el conjunto de datos.

lunes, 5 de septiembre de 2016

R cuadrado o coeficiente de determinación o de correlación múltiple y R cuadrado ajustado

El R cuadrado es una herramienta estadística (un estadístico) que se utiliza en modelos estadísticos como en una regresión para predecir futuros resultados. Por ejemplo, a los inversores permite hacer predicciones sobre el crecimiento o variación de un dato determinado según como se correlaciona con otras variables. El R cuadrado es el indicador que nos permitirá conocer cómo de bien se pueden predecir esos resultados. 

El R2 es el porcentaje de variación de la variable de respuesta que explica su relación con una o más variables predictoras. Por lo general, mientras mayor sea el R2, mejor será el ajuste del modelo a sus datos. El R2 siempre se encuentra entre 0 y 100%. El R-cuadrado también se conoce como el coeficiente de determinación o determinación múltiple (en la regresión lineal múltiple).



El primer modelo de regresión explica 85.5% de la varianza mientras que el segundo explica 22.6%. Mientras mayor sea la varianza que explica el modelo de regresión, más cerca estarán los puntos de los datos de la línea de regresión ajustada.

¿Qué es el R-cuadrado ajustado?
El R2 ajustado es el porcentaje de variación en la variable de respuesta que es explicado por su relación con una o más variables predictoras, ajustado para el número de predictores en el modelo.
Es decir, a medida que incluyamos más variables en el modelo, el R cuadrado aumentará por lo que puede hacernos pensar que el modelo es mejor porque incluye más variables.
Para comprobar si es cierto que nuestro modelo es mejor por la inclusión de nuevas variables debemos analizar el R cuadrado ajustado. 



En la siguiente tabla observamos como con una variable el R cuadrado es del 52%. Al agregar el segundo término, usted observa que el R2 ajustado mejoró, lo que indica que la segunda variable mejoró el modelo. Con el tercer término,  aunque el R2 aumenta, el R2 ajustado no lo hace. Puesto que la tercera variable no mejoró el modelo, podríamos considerar eliminarla del modelo. 


Para saber más sobre el R cuadrado.