Antes de realizar cualquier análisis estadístico con nuestros datos, es recomendable observar si existen entre las variables a estudiar, valores anómalos o extraños que pueden alterar el resultado final. En estadística, a estos valores se les denomina “outliers”.
Pueden ser valores extremadamente elevados o bajos.
El diagrama de cajas (boxplot), es un instrumento gráfico de la estadística descriptiva que permite realizar un análisis más detallado y conciso respecto a la distribución de los datos y nos permite determinar si la muestra tiene elementos “outliers” y si presenta un sesgo a la izquierda a la derecha o izquierda.
Uno de los métodos más utilizados en estadística para la detección de outliers es el que utiliza el concepto de cuartil de un conjunto de datos.
Si tenemos un conjunto de datos y lo ordenaremos de menor a mayor, el Cuartil 1, llamémosle Q1, es el valor tal que desde ese valor hacia su izquierda se encuentran la primera cuarta parte de los valores de este conjunto de datos.
El Cuartil 2, llamémosle Q2, es el valor tal que desde ese valor hacia su izquierda se encuentran la primera mitad de los valores de este conjunto de datos. Y así sucesivamente.
Para detectar valores outliers moderados, tendríamos:
LímInf = Q1- 1.5(Q3-Q1)
LímSup = Q3 + 1.5(Q3-1)
Los valores que sean menores que LímInf o mayores que LímSup se consideran valores outliers.
Para detectar valores outliers extremos, tendríamos:
LímInf = Q1- 3 (Q3-Q1)
LímSup = Q3 + 3 (Q3-1)
Los valores que sean menores que LímInf o mayores que LímSup se consideran valores outliers.
¿Quieres ayudarnos a mantener vivo el blog?
No hay comentarios:
Publicar un comentario