Blog de Estadística: 2014

martes, 30 de septiembre de 2014

El concepto p-valor

Se denomina p-valor o nivel de significación o valor p, donde p indica probabilidad, al valor de alfa más pequeño que haga que la muestra observada nos indique que se debe rechazar Ho. De este modo, las personas que vean los resultados de un experimento pueden decidir por sí mismas si el riesgo de cometer un error de tipo I es satisfactorio.

Cuando se interpretan resultados de un contraste, las conclusiones están basadas en una regla de decisión. Ésta se establece teniendo en cuenta el riesgo que asume el investigador de cometer un error de tipoI, siendo la probabilidad de este error el nivel de significación alfa.

miércoles, 17 de septiembre de 2014

Enviar datos desde SAS a Excel

Hace tiempo publicamos una entrada en la que explicábamos como exportar un dataset de sas a excel. Hoy queremos explicar una manera muy directa de enviar datos de Sas a Excel, con la características que podemos indicar a qué fila, columna, celda exportar la información.

La siguiente opción de programación de SAS Base es muy sencilla y práctica ya que como decimos, permite enviar los datos de su dataset a la fila y columna del fichero Excel que deseemos.

Si tenemos un fichero de datos llamado Clientes y guardamos los resultados estadísticos obtenidos en el procedimento proc means en X1:

proc means data=CLIENTES noprint; var AUX; output out=X1; run;
La forma de lanzarlo a excel será:

filename X1 DDE 'EXCEL|Hoja1!F9C1:F9C2' NOTAB; data X1; set X1; file X1; put DESCRIPCION "09"x SUMA; run;

Es importante tener el fichero excel abierto. La siguiente sintaxis determina la ruta donde enviamos los datos (nombre el pestaña,, filas y columnas): 'EXCEL|Hoja1!F9C1:F9C2'. Por último, tras “put” escribimos los nombres de los campos que queremos exportar tabulados con “09”x.

lunes, 8 de septiembre de 2014

Pruebas No Paramétricas

El análisis de la varianza asume que las distribuciones subyacentes están distribuidas normalmente y que las variaciones de las distribuciones que son comparadas son similares.

El coeficiente de correlación de Pearson asume normalidad.

Mientras que las técnicas paramétricas son robustas (es decir, conservan a menudo un poder considerable para detectar diferencias o semejanzas incluso cuando se violan estas asunciones), algunas distribuciones no cumplen las características necesarias, por lo que una alternativa no paramétrica es más deseable para detectar una diferencia o una semejanza.

Pruebas no paramétricas para muestras relacionadas

viernes, 29 de agosto de 2014

Oferta de Empleo

Contacta con nosotros Fabiola Alcalde, consultora de selección, de la consultora I+ADDH encargada de dar soporte en la búsqueda de talento de profesionales de la carrera de Ingenieros Estadística, que deseen desarrollar una carrera en el Banco de Crédito de Crédito.

Nos solicita que publiquemos la siguiente oferta de empleo de estadística en nuestro blog. Los interesados pueden remitir sus CV al email:

seleccion@iaddh.com

Descripción del empleo:
Esta es tu oportunidad de iniciar una carrera en el mundo Financiero y desarrollar tus habilidades analíticas, relacionándote con profesionales de primer nivel que se caracterizan por su conocimiento y trayectoria profesional, pasión por metas y resultados y capacidad de innovar.
Ocuparas la posición de Analista Senior de Inteligencia de Cumplimiento y asumirás el reto de planificar y ejecutar proyectos de minería de datos para mejorar los procesos del área. Así como desarrollar modelos estadísticos, especializados que permiten identificar alertas en las operaciones.
Formarás parte del área de Inteligencia de Cumplimiento, quien es la encargada de implementar modelos de comportamiento y predictivos que se sustenten en estudios de investigación y minería de datos con el objetivo de automatizar la generación de alertas.

Perfil Profesional
- Egresado o Bachiller de la carrera de Estadística.
- Experiencia mínima de 2 años en la ejecución de proyectos de datamining o minería de datos en el sector financiero.
- Indispensable experiencia en la construcción de modelos de minería de datos y análisis estadístico.
- Indispensable conocimientos avanzados en el manejo de herramientas estadísticas como: SAS (Base/Guide/Miner), SPSS, Modeler.
- Conocimientos avanzados en el lenguaje de SQL.

Funciones Principales:
1. Planificar, coordinar y ejecutar proyectos que permitan identificar operaciones y clientes inusuales a través de modelos especializados de minería de datos.
2. Ejecutar proyectos sobre modelamiento predictivo o supervisado como análisis de regresiones, árboles de decisiones, con el fin de hacer más eficientes las labores de detección o evaluación.
3. Obtener información de los sistemas transaccionales, Datawarehouse y datamart para el desarrollo de modelos datamining, a través del desarrollo de procedimientos en lenguaje SQL.
4. Realizar análisis estadísticos para identificar datos inusuales a través del análisis exploratorio y descriptivo.
5. Automatización de modelos datamining a través de la programación en código SAS para su puesta en producción en servidores del Datawarehouse o servidores propios del área.
6. Investigar sobre nuevas técnicas de modelamiento.

Te ofrecemos:
- Pertenecer al banco líder del mercado
- La oportunidad de trabajar con los mejores profesionales del negocio
- Un trabajo retador en donde desarrollarás diferentes habilidades
- Oportunidades de desarrollo internas
- Beneficios financieros, de salud, educación y recreación
- Préstamos financieros a tasas especiales.

jueves, 28 de agosto de 2014

Relación entre variables independientes

Retomamos nuestra sección Foro Estadístico, donde Oniz nos hace la siguiente pregunta:

¿Qué método debo aplicar para relacionar varias variables independientes con una sola variable dependiente?

Una opción sería utilizar el análisis de regresión, donde los coeficientes del modelo identifica la fuerza de la relación entre la variable independiente con la dependiente.

domingo, 3 de agosto de 2014

Balance del Blog

Nos vais a permitir que escribamos una entrada lejos de los contenidos técnicos sobre estadística a los que os estamos acostumbrados. Simplemente nos gustaría haceros partícipes de los datos que maneja este sencillo blog, que como decimos en nuestra sección, simplemente nació con el objetivo de convertirse en un punto de encuentro, información, consulta y opinión de los profesionales del análisis de datos.

El blog en estadísticas

Se han publicado 38 entradas, tenemos 27 comentarios útiles publicados y 10 seguidores.
La primera entrada es de Septiembre de 2012. 2 años después hemos visto como han ido creciendo sus visitas de manera lenta.

En el gráfico podéis ver el ritmo de visitantes:

Monetización

Famosa palabra entre los negocios online. Hacer el trabajo de escribir, publicar, etc, nos lleva unas cuantas horas, trabajo y en algunos momentos hasta dinero. Por ese motivo este blog intenta financiarse con 3 vías.

Publicidad Adsense. Podéis verla en el menú de la derecha. Poco intrusiva. Si os interesa algún anuncio no dudéis en hacer click.
Donativos: si te gusta lo que lees y quieres que esto crezca, puedes hacer un pequeño donativo en la sección colaboración. El importe lo eliges tú.
Libros de estadística: hemos decidido hacer crecer esta sección. Facilitamos títulos elegidos y clasificados entre el catálogo de Amazon y ayudamos a difundir publicaciones de interés a cambio de una pequeña comisión.

En el futuro

Seguir creciendo, nos encantaría poder ofrecer nuestros propios cursos online, hacer nuestros libros, crear un foro para poder responder dudas, tener nuestro propio hosting y dominio.... pero todo cuesta dinero.

Iremos poco a poco, compraremos un dominio y aumentaremos la frecuencia de publicaciones para fidelizar más a nuestros visitantes.

Por último, hemos decidio eliminar la sección servicios ya que no podemos atender y resolver todas vuestras dudas. Pero aquellas que nos lleguen, las publicaremos para que cualquier visitante pueda daros soporte a través de sus comentarios.

viernes, 25 de julio de 2014

Test Estadísticos: Ejemplo del Test de Correlación de Pearson

Como vimos en una entrada anterior, el test de correlación de Pearson mide la relación existente entre dos variables, su intensidad y su sentido (positivo o negativo).

A continuación veremos un ejemplo de su aplicación:

El Equipo Directivo de una empresa está interesado en conocer la relación que existe entre el tiempo semanal (horas) que dedican los trabajadores a formación y la productividad media de los mismos al final del año. Eligiendo 11 trabajadores al azar, han encontrado los siguientes resultados tras calcular el coeficiente de correlación de Pearson.

Media:

Como se puede ver en la tabla inferior se muestran los resultados de x e y que son puntuaciones diferenciales que se han conseguido restándoles las medias a las puntuaciones directas. El valor de la media en cada una de las variables las mostraré a continuación junto con las operaciones para calcular la covarianza de cada variable.

Covarianza:

El resultado de la covarianza al ser positivo, nos indica cierta tendencia a que a un tiempo semanal de estudio por encima de la media corresponden calificaciones por encima de la media, y a un tiempo de estudio por debajo de la media corresponden calificaciones por debajo de la media.
Para calcular el coeficiente de correlación de Pearson nos ayudarán los resultados del ejercicio anterior. Pero además tendremos que calcular la desviación típica de x e y. Y para la desviación típica necesitaremos los resultados de la varianza de x e y respectivamente. Mostraré a continuación el procedimiento y los resultados del proceso necesario para obtener lo solicitado por el problema.

Viendo los resultados llegamos a la conclusión de que estamos ante una correlación muy alta, lo que quiere decir a puntuaciones altas en cuanto a notas se corresponden altas horas de trabajo y estudio semanal.

martes, 10 de junio de 2014

Ejemplo práctico de intervalo de confianza

En este blog, publicamos una entrada sobre los intervalos de confianza para un promedio. En dicho post estudiamos su teoría y la correcta interpretación:

Si el intervalo en cuestión es (a,b). Pues bien, esto quiere decir que si elegimos 100 muestras de tamaño 50 y cada vez calculamos el intervalo de confianza resultante, acertaremos en nuestro pronóstico en 95 de las 100 veces que realizaríamos la estimación con cada muestra.

Ejemplo práctico:

Los siguientes datos son las puntuaciones obtenidas para 45 personas de una escala de depresión (mayor puntuación significa mayor depresión).

Para construir un intervalo de confianza para la puntuación promedio poblacional, asumamos que los datos tienen distribución normal, con varianza poblacional desconocida. Como la varianza poblacional es desconocida, lo estimamos por s2=18,7. Luego, un intervalo de confianza aproximado es:

Luego, el intervalo de confianza para Nu es (13,2 , 15,8). Es decir, la puntuación promedio poblacional se encuentra entre 13,2 y 15,8 con una confianza 95%.

jueves, 5 de junio de 2014

Intervalos de Confianza

Para interpretar bien estos conceptos veamos un ejemplo:

Supongamos que deseamos estimar la media de la estatura de una población mediante un intervalo de confianza al 95% de nivel de confianza, con una muestra de tamaño 50. Supongamos que tras los cálculos necesarios, el intervalo en cuestión es (a,b). Pues bien, esto quiere decir que si elegimos 100 muestras de tamaño 50 y cada vez calculamos el intervalo de confianza resultante, acertaremos en nuestro pronóstico en 95 de las 100 veces que realizaríamos la estimación con cada muestra.

Intervalo de confianza para un promedio:

Generalmente, cuando se quiere construir un intervalo de confianza para la media poblacional, la varianza poblacional es desconocida, por lo que el intervalo para construido al final es muy poco práctico.

Si en el intervalo se reemplaza la desviación estándar poblacional por la desviación estándar muestral s, el intervalo de confianza toma la forma:

La cual es una buena aproximación para el intervalo de confianza de 95% para la media con varianza poblacional desconocida. Esta aproximación es mejor en la medida que el tamaño muestral sea grande.

Cuando el tamaño muestral es pequeño, el intervalo de confianza requiere utilizar la distribución t de Student (con n-1 grados de libertad, siendo n el tamaño de la muestra), en vez de la distribución normal (por ejemplo, para un intervalo de 95% de confianza, los límites del intervalo ya no serán construidos usando el valor 1,96).