miércoles, 17 de octubre de 2012

Test Estadísticos: Prueba de Kolmogorov-Smirnov

El test de Kolmogorov-Smirnov es una prueba de significación estadística no paramétrica utilizada para determinar la bondad del ajuste de dos distribuciones de probabilidad entre sí.

Es decir, trataremos de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribución. Las pruebas estadísticas que tratan este problema reciben el nombre general de “Pruebas de Bondad de Ajuste”.

La Prueba de Kolmogorov-Smirnov  mide, el grado de ajuste que existe entre la distribución obtenida a partir de la muestra y la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están basadas en la hipótesis nula de que no hay diferencias significativas entre la distribución muestral y la teórica. Ambas pruebas están basadas en las siguientes hipótesis:
  • H0: f(x,q) = f0(x,q)
  • H1: f(x,q) <> f0(x,q)
donde f0(x,q) es la distribución que se supone sigue la muestra aleatoria. La hipótesis alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. Si se desea examinar otra distribución específica, deberá realizarse de nuevo la otra prueba suponiendo que la hipótesis nula es esta nueva distribución. Al especificar la hipótesis nula, el conjunto de parámetros definidos por que puede ser conocido o desconocido. En caso de que los parámetros sean desconocidos, es necesario estimarlos mediante alguno de los métodos de estimación.

Para formular la hipótesis nula deberán tenerse en cuenta los siguientes aspectos o criterios:

a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribución que siguen los tiempos de fallo de unos componentes, podríamos pensar en una distribución exponencial, o una distribución gama o una distribución Weibull, pero en principio no consideraríamos una distribución normal. Si estamos analizando los caudales de un río en un determinado sitio, podríamos pensar en una distribución logarítmica normal, pero no en una distribución normal.

b) Histograma. La forma que tome el histograma de frecuencia es quizás la mejor indicación del tipo de distribución a considerar.

Este contraste, que es válido únicamente para variables continuas, compara la función de distribución (probabilidad acumulada) teórica con la observada, y calcula un valor de discrepancia, representado habitualmente como D, que corresponde a la discrepancia máxima en valor absoluto entre la distribución observada y la distribución teórica, proporcionando asimismo un valor de probabilidad P, que corresponde, si estamos verificando un ajuste a la distribución normal, a la probabilidad de obtener una distribución que discrepe tanto como la observada si verdaderamente se hubiera obtenido una muestra aleatoria, de tamaño n, de una distribución normal.

Si esa probabilidad es grande no habrá por tanto razones estadísticas para suponer que nuestros datos no proceden de una distribución, mientras que si es muy pequeña, no será aceptable suponer ese modelo probabilístico para los datos.

martes, 9 de octubre de 2012

Introducción al Data Mining

El objetivo del presente artículo, es el de presentar un sencilla técnica estadística de análisis. La mayoría de las empresas generan y almacenan gran cantidad de información.

q  ¿Cómo almacenar de forma segura esa información?
q  ¿Es posible obtener el máximo rendimiento de la información disponible en las organizaciones?
q  ¿Con qué medios contamos para la gestión eficiente de los datos?
 
Algunos sistemas que son sólo parcialmente conocidos, producen una cantidad inmensa de datos; estos datos con frecuencia contienen valiosa información que puede resultar muy útil. Se trata de auténticas vetas de oro para los ejecutivos de una corporación.
 
¿Cuál es el problema?
La mayoría de las multinacionales generan más información en una semana que la que cualquier persona podría leer en toda su vida, e incluso las pequeñas empresas generan un volumen de datos que no son capaces de manejar.
 
 
 
El Data Mining se considera un área multidisciplinar del entorno de la Inteligencia de Negocio constituida por un conjunto de metodologías y herramientas que permiten extraer conocimiento útil (patrones de comportamiento, modelos operativos, de tendencia, etc.) para dar soporte a la toma de decisiones, comprensión y mejora de los procesos y sistemas, a partir de grandes cantidades de datos.
 
¿Cuándo tiene utilidad aplicar las técnicas de Minería de Datos?
 
q  Cuando la toma de decisiones debe estar basada en el conocimiento.
q  Cuando el escenario es cambiante.
q  Cuando los métodos disponibles no son óptimos o el sistema es parcialmente desconocido.
q  Cuando se dispone de un gran volumen de datos, accesibles y con potencial de información interesante.
 
Campos de aplicación de las técnicas de Minería de Datos
 
q  APLICACIONES DE NEGOCIOS
   §   Marketing dirigido
§   Detección de fugas de clientes
§   Comportamiento del cliente en supermercados ciertos días de la semana.
§   Inversiones, deportes y entrenamiento, telecomunicaciones, e-Commerce,  etc.
q  APLICACIONES WEB
§   Mecanismos de búsqueda, rastreadores de páginas web, etc.
q   APLICACIONES DE GOBIERNO
§   Mejora de las leyes, detección de fraudes, anti-terrorismo, etc.
 
Algunas técnicas que se aplican en Data Mining:
 
 Asociación:
q  La asociación resuelve problemas del tipo “Análisis de la Bolsa de la Compra”, con el fin de obtener las tendencias de compra de los clientes.
q  Trata la posible relación entre dos sucesos aparentemente independientes.
q  La expresión de una regla de asociación tiene dos componentes, el antecedente (cuando los alumnos cursan AOO), y el consecuente (cursan asignatura optativa POO)
SECUENCIACIÓN
 
q  Es similar a la asociación, pero incluye el tiempo de análisis añadiendo comparaciones de tiempo, como el análisis del tiempo transcurrido entre el suceso inductor y el suceso inducido.
q  Dentro de los seis primeros meses, al cabo de quince días, la próxima vez que,
CLASIFICACIÓN
 
q  Agrupa todas las herramientas que permiten asignar un elemento a un determinado grupo o clase.
q   Se utiliza en la detección de transacciones fraudulentas, riesgo en la entrega de créditos, identificación de procedimientos médicos, etc.
q   Utiliza datos históricos (conjunto de entrenamiento) para predecir un comportamiento futuro en cada clase (perfil de la clase).
q  Se utiliza para:
q    Clasificar cada elemento a partir de los valores de sus variables.
q    Ver que variables influyen en otras.
REGRESIÓN
 
q  Similar a la clasificación.
q   El modelo generado intenta predecir el valor más probable para una observación.
AGRUPAMIENTO
 
q Se utiliza en Marketing (población con las mismas afinidades), Medicina (pacientes con los mismos malestares), etc.
q Partición de la base de datos en subconjuntos en base a un criterio, de forma que los elementos tengan comportamientos comunes en sus variables.
q Diferencia con clasificación: NO se parte de un conjunto de entrenamiento.

sábado, 6 de octubre de 2012

IV Jornadas de usuarios de R

Para los que no conozcáis que es R, informaros que es un lenguaje de programación orientado al análisis estadístico. Es software libre publicado bajo licencia GNU-GPL y se puede descargar libremente en el CRAN.
 


Los días 15 y 16 de noviembre de 2012, se realizará en Barcelona el IV encuentro de usuarios de R con los objetivos de:
  • Proporcionar un punto de encuentro a los usuarios de R.
  • Fomentar la colaboración entre ellos en un ambiente multidisciplinar.
  • Divulgar el conocimiento del lenguaje y sus posibilidades.
  • Promover el uso de R.
Más información de las jornadas aquí.

jueves, 4 de octubre de 2012

El 5 de octubre es el día de la Estadística

El 5 de octubre de 2012 es la fecha elegida para celebrar el Día de la Estadística, una ocasión para reencontrarse la comunidad estadística del país a fin de comentar y debatir temas de interés común desde el punto de vista académico, institucional o de la misma profesión.

La edición de este año será organizada por el Departamento de Estadística e Investigación Operativa de la Universidad Politécnica de Cataluña (UPC), y tendrá lugar el día 5 de octubre en la Facultad de Matemáticas y Estadística de la UPC.
 
Si quieres conocer el programa de actividades, consúltalo aquí.

martes, 2 de octubre de 2012

Medias Móviles como técnica estadística de predicción

El objetivo del presente artículo, es el de presentar un sencilla técnica estadística de análisis utilizada para estimar el valor futuro de una serie de datos, denominada Medias Móviles.
Su metodología es simple, consiste en utilizar promedios de las observaciones pasadas más recientes de la serie analizada. Para cada período, el cálculo del promedio se renueva añadiendo el más reciente y eliminando el más antiguo de los considerados. La “amplitud” de la media móvil (el número de observaciones incluidas en el cálculo promedio), se denomina “orden” de la media móvil:
Media móvil de orden “p”: 

Ventajas de esta técnica de predicción:

-    Las medias móviles resultan más apropiadas cuando la aleatoriedad de los datos es elevado y la autocorrelación baja.

-    La media móvil solo tiene memoria de un período, sólo debe ser utilizada con fines predictivos a corto plazo.

-    Presenta una progresión tanto más suavizada cuanto mayor sea el número de términos incluidos en el promedio.

Desventajas de las medias móviles:

-    La presencia de tendencia marcada o estacionalidad hace muy arriesgado utilizar las medias móviles para la estimación.

-    Para evitar la estacionalidad, pueden elaborarse medias móviles de orden igual al orden estacional (técnica de alisado), pero esto, válido a efectos de ajustes promedio general, implicará varios sesgos en materia de predicción. Una media móvil de este tipo “filtra” la estacionalidad y, por tanto, después habrá de nuevo de añadirse a la estimación realizada sobre la serie filtrada.