Es decir, trataremos de verificar si el
conjunto de datos se puede ajustar o afirmar que proviene de una determinada
distribución. Las pruebas estadísticas que tratan este problema reciben el
nombre general de “Pruebas de Bondad de Ajuste”.
La Prueba de Kolmogorov-Smirnov
mide, el grado de ajuste que existe entre la distribución obtenida a
partir de la muestra y la distribución teórica que se supone debe seguir esa
muestra. Ambas pruebas están basadas en la hipótesis nula de que no hay
diferencias significativas entre la distribución muestral y la teórica. Ambas
pruebas están basadas en las siguientes hipótesis:
- H0: f(x,q) = f0(x,q)
- H1: f(x,q) <> f0(x,q)
Para formular la hipótesis nula deberán tenerse en cuenta los
siguientes aspectos o criterios:
a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos
de investigar la distribución que siguen los tiempos de fallo de unos
componentes, podríamos pensar en una distribución exponencial, o una
distribución gama o una distribución Weibull, pero en principio no
consideraríamos una distribución normal. Si estamos analizando los caudales de
un río en un determinado sitio, podríamos pensar en una distribución
logarítmica normal, pero no en una distribución normal.
b) Histograma. La forma que tome el histograma de frecuencia es
quizás la mejor indicación del tipo de distribución a considerar.
Este contraste, que es válido únicamente
para variables continuas, compara la función de distribución (probabilidad
acumulada) teórica con la observada, y calcula un valor de discrepancia,
representado habitualmente como D, que corresponde a la discrepancia máxima en
valor absoluto entre la distribución observada y la distribución teórica,
proporcionando asimismo un valor de probabilidad P, que corresponde, si estamos
verificando un ajuste a la distribución normal, a la probabilidad de obtener
una distribución que discrepe tanto como la observada si verdaderamente se
hubiera obtenido una muestra aleatoria, de tamaño n, de una distribución normal.
Si esa probabilidad es grande no habrá por
tanto razones estadísticas para suponer que nuestros datos no proceden de una
distribución, mientras que si es muy pequeña, no será aceptable suponer ese
modelo probabilístico para los datos.