Blog de Estadística: 2012

viernes, 7 de diciembre de 2012

2013 Año Internacional de la Estadística

El Año Internacional de la Estadística (Estadística 2013) es una celebración y un reconocimiento a nivel mundial de las aportaciones de la ciencia estadística. A través del esfuerzo conjunto de organizaciones de todo el mundo se pretende promover la importancia de la estadística entre la comunidad científica, los usuarios de datos públicos y privados, los medios de comunicación, políticos, empresarios, estudiantes y el público en general.

Los objetivos que se persiguen son:

Aumentar la conciencia pública sobre el poder y el impacto de la estadística en todos los aspectos de nuestra sociedad.
Promover la estadística como una profesión, especialmente entre la gente joven.
Fomentar la creatividad y el desarrollo de las ciencias de la probabilidad y la estadística.

Podéis ver las actividades haciendo click aquí.

Web Oficial: http://www.statistics2013.org/

jueves, 29 de noviembre de 2012

Test Estadísticos: Prueba de F, Chi Cuadrado, Fisher, McNemar, Binomial, Correlación de Pearson

PRUEBA DE F

Prueba estadística que sirve para comparar varianzas.
El estadístico F experimental es el estadístico de contraste en el ANOVA y otras pruebas de comparación de varianzas.

TEST DE CHI AL CUADRADO

La prueba de Ji-cuadrado es cualquier prueba estadística de la hipótesis en cuál el test estadístico de la distribución del Ji-cuadrado si la hipótesis nula es verdad.
Determina si existe asociación entre variables cualitativas.
Si el p-valor asociado al estadístico de contraste es menor se rechazará la hipótesis nula.
Se utiliza para analizar tablas de contingencia y comparación de proporciones en datos independientes

PRUEBA EXACTA DE FISHER (p.- 5%)

Permite valorar el efecto del azar.
Es una prueba estadística de significación usada en el análisis de los tamaños pequeños categóricos de muestra de datos.
La necesidad de la prueba de Fischer se presenta cuando tenemos datos que se dividan en dos categorías de dos maneras separadas.
Prueba de significación estadística utilizada para comparar proporciones en tablas de contingencia.
Es preferible a la prueba de x2 cuando el tamaño de la muestra es reducido (de menos de 30 efectivos).
Es la prueba estadística de elección cuando la prueba de Chi cuadrado no puede ser empleada por tamaño muestral insuficiente

PRUEBA DE MCNEMAR.

Prueba estadística que sirve para comparar proporciones en datos pareados.
Prueba de significación estadística para probar la hipótesis nula de inexistencia de cambios en la proporción de sujetos que experimentan un acontecimiento, cuando cada individuo es evaluado dos veces (en condiciones diferentes) y los datos están emparejados.

PRUEBA BINOMIAL

En estadística, la prueba binomial es una prueba exacta de la significación estadística de desviaciones de una distribución teóricamente prevista de observaciones en dos categorías.
El uso más común de la prueba binomial es en el caso donde la hipótesis nula es que dos categorías son igualmente probables ocurrir.

TEST DE CORRELACIÓN DE PEARSON

Se utiliza para estudiar la asociación entre un factor de estudio y una variable de respuesta cuantitativa, mide el grado de asociación entre dos variables tomando valores entre -1 y 1.
Valores próximos a 1 indicarán fuerte asociación lineal positiva.
Valores próximos a -1 indicarán fuerte asociación lineal negativa.
Valores próximos a 0 indicarán no asociación lineal, lo que no significa que no pueda existir otro tipo de asociación.
Prueba en una hipótesis nula que las frecuencias relativas de la ocurrencia de acontecimientos observados siguen una distribución de frecuencia especificada.
Los acontecimientos deben ser mutuamente exclusivos.
Es una prueba de la calidad de ajuste que establece sí o no una distribución de frecuencia observada diferencia de una distribución teórica.

martes, 20 de noviembre de 2012

Ejemplo de cómo calcular la mínima diferencia significativa

En el último post publicado, estudiamos la parte teórica de la Mínima Diferencia Significativa (LSD) como método de comparación de diferencia de medias. Ahora realizaremos el ejemplo que empezamos a analizar en la anterior entrada.

Como se puede observar, las diferencias que exceden (DSM) están entre las medias:

por lo tanto, sólo difieren las medias m 4 de m 1 y de m 3.

Es importante tener presente que la prueba DSM sólo se debe emplear cuando el ANDEVA ha conducido al rechazo de H0. Si las muestras no son del mismo tamaño no se debe usar DSM.

lunes, 19 de noviembre de 2012

Mínima Diferencia Significativa (LSD) como método de comparación de diferencia de medias

Cuando se rechaza la hipótesis nula de no diferencia de más de dos medias (H0: m 1 = m 2 = … = mk) en un análisis de varianza surge la pregunta acerca de cuáles pares de medias son diferentes, puesto que el rechazo de una hipótesis nula con cuatro tratamientos (H0: m 1 = m 2 = m 3 = m 4), podría deberse a uno o varios de los seis pares de diferencias que se pueden tener.

Existen varios procedimientos para determinar cuáles son los pares de medias que son diferentes. El más utilizado es el de la Diferencia Significativa Mínima (DSM) de Fisher. Este procedimiento es una extensión de la prueba t de Student para el caso de comparación de dos medias con varianza ponderada.

Veamos un ejemplo encontrado en internet: Una empresa tiene cuatro plantas y sabe que la planta A satisface los requisitos impuestos por el gobierno para el control de desechos de fabricación, pero quisiera determinar cuál es la situación de las otras tres. Para el efecto se toman cinco muestras de los líquidos residuales de cada una de las plantas y se determina la cantidad de contaminantes. Los resultados del experimento aparecen en la siguiente tabla.

Previamente a realizar la prueba de diferencia mínima significativa (DSM) de Fisher conviene realizar:

Análisis para detectar datos anómalos o outliers.
Análisis de la varianza. Cuando el análisis de varianza indica la existencia de una diferencia significativa se desea conocer cuál de los pares de medias causa la diferencia. Cuando las muestras son de igual tamaño la Diferencia Significativa Mínima (DSM) de Fisher nos ayuda a localizar esta fuente.

La Diferencia Significativa Mínima (DSM) se define como la diferencia mínima que podría existir entre dos medias de muestras significativamente diferentes. Para obtener la fórmula para la DSM, se usa la prueba t de Student para la diferencia entre dos medias cuando las varianzas no son diferentes cuyo estadístico de contraste es:

Además, si se considera ni = nj = n, entonces:

Si este valor calculado es mayor que el valor teórico (de tablas) decimos que la diferencia entre m 1 y m 2 es significativa. Así, la DSM puede considerarse como la menor de las diferencias , es decir:

martes, 6 de noviembre de 2012

El trabajo de estadístico en Estados Unidos

La web CnnExpansión publicó recientemente un artículo con los 10 mejores empleos de Estados Unidos. En el 7º puesto de este curioso ranking de los perfiles profesionales más exitosos, aparece el de analista de investigación de mercados con experiencia en estadística. De los 10 puestos publicados en el artículo, el de estadístico es el segundo con mayor tasa de crecimiento a 10 años.

Algunos datos curiosos:

Promedio salarial: 63,100 dólares
Salario máximo: 97,700 dólares
Crecimiento del empleo a 10 años: 41.2%
Puestos totales*: 282,700

¿Qué ocurriría si comparamos estos datos con los de los profesionales estadísticos en España? Tal vez, sería interesante realizar una encuesta sobre la situación laboral en nuestro país.

lunes, 5 de noviembre de 2012

Manual gratuito de SPSS

En la web librosgratis.net podeis descargaros de forma totalmente gratuita el ebook en formato pdf: SPSS: Guía para el análisis de datos. Antes tenéis que registraros en la web.

Puedes ver el libro de Spss directamente aquí.

miércoles, 17 de octubre de 2012

Test Estadísticos: Prueba de Kolmogorov-Smirnov

El test de Kolmogorov-Smirnov es una prueba de significación estadística no paramétrica utilizada para determinar la bondad del ajuste de dos distribuciones de probabilidad entre sí.

Es decir, trataremos de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribución. Las pruebas estadísticas que tratan este problema reciben el nombre general de “Pruebas de Bondad de Ajuste”.

La Prueba de Kolmogorov-Smirnov mide, el grado de ajuste que existe entre la distribución obtenida a partir de la muestra y la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están basadas en la hipótesis nula de que no hay diferencias significativas entre la distribución muestral y la teórica. Ambas pruebas están basadas en las siguientes hipótesis:

H0: f(x,q) = f0(x,q)
H1: f(x,q) <> f0(x,q)

donde f0(x,q) es la distribución que se supone sigue la muestra aleatoria. La hipótesis alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. Si se desea examinar otra distribución específica, deberá realizarse de nuevo la otra prueba suponiendo que la hipótesis nula es esta nueva distribución. Al especificar la hipótesis nula, el conjunto de parámetros definidos por que puede ser conocido o desconocido. En caso de que los parámetros sean desconocidos, es necesario estimarlos mediante alguno de los métodos de estimación.

Para formular la hipótesis nula deberán tenerse en cuenta los siguientes aspectos o criterios:

a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribución que siguen los tiempos de fallo de unos componentes, podríamos pensar en una distribución exponencial, o una distribución gama o una distribución Weibull, pero en principio no consideraríamos una distribución normal. Si estamos analizando los caudales de un río en un determinado sitio, podríamos pensar en una distribución logarítmica normal, pero no en una distribución normal.

b) Histograma. La forma que tome el histograma de frecuencia es quizás la mejor indicación del tipo de distribución a considerar.

Este contraste, que es válido únicamente para variables continuas, compara la función de distribución (probabilidad acumulada) teórica con la observada, y calcula un valor de discrepancia, representado habitualmente como D, que corresponde a la discrepancia máxima en valor absoluto entre la distribución observada y la distribución teórica, proporcionando asimismo un valor de probabilidad P, que corresponde, si estamos verificando un ajuste a la distribución normal, a la probabilidad de obtener una distribución que discrepe tanto como la observada si verdaderamente se hubiera obtenido una muestra aleatoria, de tamaño n, de una distribución normal.

Si esa probabilidad es grande no habrá por tanto razones estadísticas para suponer que nuestros datos no proceden de una distribución, mientras que si es muy pequeña, no será aceptable suponer ese modelo probabilístico para los datos.

martes, 9 de octubre de 2012

Introducción al Data Mining

El objetivo del presente artículo, es el de presentar un sencilla técnica estadística de análisis. La mayoría de las empresas generan y almacenan gran cantidad de información.

q ¿Cómo almacenar de forma segura esa información?

q ¿Es posible obtener el máximo rendimiento de la información disponible en las organizaciones?

q ¿Con qué medios contamos para la gestión eficiente de los datos?

Algunos sistemas que son sólo parcialmente conocidos, producen una cantidad inmensa de datos; estos datos con frecuencia contienen valiosa información que puede resultar muy útil. Se trata de auténticas vetas de oro para los ejecutivos de una corporación.

¿Cuál es el problema?

La mayoría de las multinacionales generan más información en una semana que la que cualquier persona podría leer en toda su vida, e incluso las pequeñas empresas generan un volumen de datos que no son capaces de manejar.

El Data Mining se considera un área multidisciplinar del entorno de la Inteligencia de Negocio constituida por un conjunto de metodologías y herramientas que permiten extraer conocimiento útil (patrones de comportamiento, modelos operativos, de tendencia, etc.) para dar soporte a la toma de decisiones, comprensión y mejora de los procesos y sistemas, a partir de grandes cantidades de datos.

¿Cuándo tiene utilidad aplicar las técnicas de Minería de Datos?

q Cuando la toma de decisiones debe estar basada en el conocimiento.

q Cuando el escenario es cambiante.

q Cuando los métodos disponibles no son óptimos o el sistema es parcialmente desconocido.

q Cuando se dispone de un gran volumen de datos, accesibles y con potencial de información interesante.

Campos de aplicación de las técnicas de Minería de Datos

q APLICACIONES DE NEGOCIOS

§ Marketing dirigido

§ Detección de fugas de clientes

§ Comportamiento del cliente en supermercados ciertos días de la semana.

§ Inversiones, deportes y entrenamiento, telecomunicaciones, e-Commerce, etc.

q APLICACIONES WEB

§ Mecanismos de búsqueda, rastreadores de páginas web, etc.

q APLICACIONES DE GOBIERNO

§ Mejora de las leyes, detección de fraudes, anti-terrorismo, etc.

Algunas técnicas que se aplican en Data Mining:

Asociación:

q La asociación resuelve problemas del tipo “Análisis de la Bolsa de la Compra”, con el fin de obtener las tendencias de compra de los clientes.

q Trata la posible relación entre dos sucesos aparentemente independientes.

q La expresión de una regla de asociación tiene dos componentes, el antecedente (cuando los alumnos cursan AOO), y el consecuente (cursan asignatura optativa POO)

SECUENCIACIÓN

q Es similar a la asociación, pero incluye el tiempo de análisis añadiendo comparaciones de tiempo, como el análisis del tiempo transcurrido entre el suceso inductor y el suceso inducido.

q Dentro de los seis primeros meses, al cabo de quince días, la próxima vez que,

CLASIFICACIÓN

q Agrupa todas las herramientas que permiten asignar un elemento a un determinado grupo o clase.

q Se utiliza en la detección de transacciones fraudulentas, riesgo en la entrega de créditos, identificación de procedimientos médicos, etc.

q Utiliza datos históricos (conjunto de entrenamiento) para predecir un comportamiento futuro en cada clase (perfil de la clase).

q Se utiliza para:

q Clasificar cada elemento a partir de los valores de sus variables.

q Ver que variables influyen en otras.

REGRESIÓN

q Similar a la clasificación.

q El modelo generado intenta predecir el valor más probable para una observación.

AGRUPAMIENTO

q Se utiliza en Marketing (población con las mismas afinidades), Medicina (pacientes con los mismos malestares), etc.

q Partición de la base de datos en subconjuntos en base a un criterio, de forma que los elementos tengan comportamientos comunes en sus variables.

q Diferencia con clasificación: NO se parte de un conjunto de entrenamiento.

sábado, 6 de octubre de 2012

IV Jornadas de usuarios de R

Para los que no conozcáis que es R, informaros que es un lenguaje de programación orientado al análisis estadístico. Es software libre publicado bajo licencia GNU-GPL y se puede descargar libremente en el CRAN.

Los días 15 y 16 de noviembre de 2012, se realizará en Barcelona el IV encuentro de usuarios de R con los objetivos de:

Proporcionar un punto de encuentro a los usuarios de R.
Fomentar la colaboración entre ellos en un ambiente multidisciplinar.
Divulgar el conocimiento del lenguaje y sus posibilidades.
Promover el uso de R.

Más información de las jornadas aquí.

jueves, 4 de octubre de 2012

El 5 de octubre es el día de la Estadística

El 5 de octubre de 2012 es la fecha elegida para celebrar el Día de la Estadística, una ocasión para reencontrarse la comunidad estadística del país a fin de comentar y debatir temas de interés común desde el punto de vista académico, institucional o de la misma profesión.

La edición de este año será organizada por el Departamento de Estadística e Investigación Operativa de la Universidad Politécnica de Cataluña (UPC), y tendrá lugar el día 5 de octubre en la Facultad de Matemáticas y Estadística de la UPC.

Si quieres conocer el programa de actividades, consúltalo aquí.

martes, 2 de octubre de 2012

Medias Móviles como técnica estadística de predicción

El objetivo del presente artículo, es el de presentar un sencilla técnica estadística de análisis utilizada para estimar el valor futuro de una serie de datos, denominada Medias Móviles.

Su metodología es simple, consiste en utilizar promedios de las observaciones pasadas más recientes de la serie analizada. Para cada período, el cálculo del promedio se renueva añadiendo el más reciente y eliminando el más antiguo de los considerados. La “amplitud” de la media móvil (el número de observaciones incluidas en el cálculo promedio), se denomina “orden” de la media móvil:

Media móvil de orden “p”:

Ventajas de esta técnica de predicción:

- Las medias móviles resultan más apropiadas cuando la aleatoriedad de los datos es elevado y la autocorrelación baja.

- La media móvil solo tiene memoria de un período, sólo debe ser utilizada con fines predictivos a corto plazo.

- Presenta una progresión tanto más suavizada cuanto mayor sea el número de términos incluidos en el promedio.

Desventajas de las medias móviles:

- La presencia de tendencia marcada o estacionalidad hace muy arriesgado utilizar las medias móviles para la estimación.

- Para evitar la estacionalidad, pueden elaborarse medias móviles de orden igual al orden estacional (técnica de alisado), pero esto, válido a efectos de ajustes promedio general, implicará varios sesgos en materia de predicción. Una media móvil de este tipo “filtra” la estacionalidad y, por tanto, después habrá de nuevo de añadirse a la estimación realizada sobre la serie filtrada.