Blog de Estadística: septiembre 2012

sábado, 29 de septiembre de 2012

Informe de empleo en España (Agosto de 2012)

El Instituto Nacional de Estadística (INE) publicó antes del verano los datos de la Encuesta de Población Activa. Desde elestadistico.blogspot vamos a comenzar una nueva sección donde publicar periódicamente aquellos datos de interés social que nos permitan con una simple descarga observar la evolución de los principales indicadores de España.

Según los datos de los Servicios Públicos de Empleo, el mes de Agosto de 2012 se cerró con un total de 4.625.634 desempleados en España, lo que suponen 38.179 personas más que el mes anterior. Pese al incremento, la voz positiva indica que se trata del menor incremeno en Agosto desde al año 2006.

Descárgate el Mini-Informe de Empleo en España 2012 - (Agosto)

Como podéis leer en el informe, más preocupante es la tasa de paro, la más alta de toda la unión europea. Las previsiones no son positivas, el Gobierno prevé una Tasa de Paro del 25% durante el 2012. Según una noticia publicada en Abril de 2012, el Gobierno envió a la Comisión Europea un informe en el que estima que la tasa de paro será del 24,3% de la población activa en 2012, nivel que bajará al 24,2% en 2013, al 23,4% en 2014 y al 22,3% en 2015.

Puedes leer otros post relacionados con el Empleo en España en:

jueves, 27 de septiembre de 2012

La Estadística al servicio del fraude electoral

Reciéntemente se ha publicado una interesante noticia donde un grupo de estadísticos austríacos han desarrollado un método estadístico para detectar los fraudes electorales una vez concluido el recuento de votos. Este método está enfocado en la votación de unidades territoriales y los resultados de su estudio, en el que ha participado la Universidad Médica de Viena, se publican ahora en la revista Proceeedings of the National Academy of Sciences (PNAS).

La idea es que si una región pequeña tiene un alto porcentaje de participación electoral, y virtualmente todos los votos de esa área son por sólo un candidato, es probable que sea debido a que llenaron las urnas con votos a favor, o destruyeron los votos de oponente (o los contaron mal, etcétera).

Si suficientes distritos presentan este problema, es posible que puedan alterar los resultados de una elección, y esto fue lo que encontraron los investigadores al analizar las elecciones del año pasado en Uganda y las de comienzos de este año en Rusia, donde volvió Vladimir Putin al poder tras ser primer ministro.

El eje vertical es el porcentaje de votos al candidato ganador, y el eje horizontal, el porcentaje de participación electoral.

Si observamos el gráfico, en las elecciones de Uganda y de Rusia hubo numerosos lugares donde el candidato ganador obtenía cifras cercanas al 100% de los votos efectuados.

Ese sistema sugiere que la manipulación electoral puede ser gradual o extrema. En el primer caso el fraude se produce cuando, con una tasa dada, se añaden papeletas a un partido o candidato particular y se retiran las de otros aspirantes. El fraude extremo, en cambio, se observa cuando el 100% de la participación electoral recoge la mayoría de los votos a favor de un partido o candidato concreto.

Thurner y sus colegas aplicaron su modelo paramétrico a los últimos procesos electorales de países como Rusia, Austria, Canadá, República Checa, España y Suiza, donde “los resultados electorales están disponibles en una base de datos simple”, comenta Thurner. Se centraron en los datos de la distribución de voto en distritos electorales con menos de 5.000 personas circunscritas.

Al analizar los datos de la distribución de voto de acuerdo a esos test vieron que, mientras en países con elecciones justas, como España o Suiza, la distribución de voto al partido ganador seguía una distribución aproximadamente gaussiana, esto no se observaba en otros casos. En Rusia la asimetría de la distribución estaba por debajo de la del resto de países, lo que según los investigadores indica la presencia de alguna anomalía, es decir, de fraude.

Este modelo estadístico puede ayudar a hacer más justos los procesos electorales en los sistemas democráticos ya que “permite hacer un análisis cuantitativo para detectar posibles irregularidades”, concluye Thurner. Los responsables del estudio quieren con su investigación llamar la atención para que “organizaciones como la OSCE o las Naciones Unidas creen una página web donde se encuentren los datos electorales de cada nación”.

Lamentablemente el método no es lo suficientemente robusto para países con menos de 100 distritos electorales, como también hay que tener claro que hay países donde hay zonas con profundas discrepancias políticas como Canadá, donde los conservadores ganaron con más del 40% de los votos en todas las provincias angloparlantes de país, pero sólo obtuvieron 16,5% en la provincia francófona de Quebec.

martes, 25 de septiembre de 2012

Inversiones millonarias para hacer encuestas online

No es la primera vez que escribimos en elestadistico sobre las encuestas online, hace varios años analizábamos en un artículo sobre la investigación que puedes leer aquí, la situación de este campo en España.

Una reciente entrada en el blog Loogic (dedicado al mundo de las start ups de internet), demuestra que el sector de la investigación de mercados online está en plena forma.

InCrowd permite realizar estudios de mercado segmentados en tiempo real con el uso de dispositivos móviles. La empresa, con sede en Cambridge, Massachussetts, ha logrado atraer el interés de Nauta Capital que apostado de manera muy importante por el proyecto aportando 2 millones de dólares de financiación.

InCrowd provee a las empresas de consumo de una plataforma online con herramientas de investigación de mercados con acceso inmediato a paneles de usuarios segmentados y gestionados por profesionales bajo demanda. La empresa se ha especializado en ofrecer plataforma de investigación especialmente pensada para la industria de las ciencias de la salud.

En España tenemos recursos similares como Emtrics o la muy activa Feebbo además del clásico encuestafacil que permiten recoger información de manera rápida, fiable y económica.

lunes, 24 de septiembre de 2012

Tablas de Contingencia

Para analizar la relación de dependencia o independencia entre dos variables cualitativas nominales o factores, es necesario estudiar su distribución conjunta o tabla de contingencia. La tabla de contingencia es una tabla de doble entrada, donde en cada casilla figurará el número de casos o individuos que poseen un nivel de uno de los factores o características analizadas y otro nivel del otro factor analizado.

Las tablas de contingencia tienen dos objetivos fundamentales:

1) Organizar la información contenida en un experimento cuando ésta es de carácter bidimensional, es decir, cuando está referida a dos factores (variables cualitativas).

2) A partir de la tabla de contingencia se puede además analizar si existe alguna relación de dependencia o independencia entre los niveles de las variables cualitativas objeto de estudio. El hecho de que dos variables sean independientes significa que los valores de una de ellas no están influidos por la modalidad o nivel que adopte la otra.

Contrastación Estadística de la relación de dependencia para variables cualitativas

Para identificar relaciones de dependencia entre variables cualitativas se utiliza un contraste estadístico basado en el estadístico c2 (Chi-cuadrado), cuyo cálculo nos permitirá afirmar con un nivel de confianza estadístico determinado si los niveles de una variable cualitativa influyen en los niveles de la otra variable nominal analizada.

Siguiendo con el ejemplo propuesto, el cálculo de la Chi-cuadrado nos permitiría saber si el sexo de una persona es un factor determinante en que dicha persona fume o no fume.

¿Cómo podemos determinar si existe una relación de dependencia o independencia entre las variables analizadas?

Dos variables son independientes si:

a) las frecuencias relativas condicionadas son iguales a las frecuencias relativas marginales.
b) O bien si se cumple que la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales.

Veámoslo con el mismo ejemplo anterior:

Frecuencias relativas marginales:

P (ser hombre) = 108/ 233 = 46.4%
P (ser mujer) = 125/ 233 = 53.6%
P (fumar) = 123/ 233 = 52.8%
P (no fumar) = 110/ 233 = 47.2%

Frecuencias relativas conjuntas:

P (hombre y fumar) = 65/ 233 = 27.9%
P (hombre y no fumar) = 43/ 233 = 18.5%
P (mujer y fumar) = 58/ 233 = 24.9%
P (mujer y no fumar) = 67/ 233 = 28.8%

Frecuencias relativas teóricas esperadas en caso de independencia:

E (hombre y fumar) = 46.4% x 52.8% = 24.5%
E (hombre y no fumar) = 46.4% x 47.2% = 21.9%
E (mujer y fumar) = 53.6% x 52.8% = 28.3%
E (mujer y no fumar) = 53.6% x 47.2% = 25.3%

Frecuencias absolutas teóricas esperadas en caso de independencia:

E (hombre y fumar) = 123 * 108 /233 = 57
E (hombre y no fumar) = 108*110/233 = 51
E (mujer y fumar) = 123*125/233 = 66
E (mujer y no fumar) = 125*110/233 = 59

Valor de la Chi-cuadrado:

Dado que el valor calculado de la c2 para un nivel de confianza del 95% (5% nivel de significación) es mayor que el valor de tablas, se rechaza la hipótesis nula de independencia entre los factores, aceptando por tanto que el sexo de una persona influye en que ésta sea fumadora o no.

El problema de la $c2 es que está influenciada por el tamaño muestral, es decir, que a mayor número de casos analizados (a mayor N), el valor de la $c2 tiende a aumentar, por lo que cuanto mayor sea la muestra más fácil será que rechacemos la hipótesis nula de independencia, cuando a lo mejor podrían no ser independientes.

Otro aspecto a tener en cuenta a la hora de realizar este contraste, es que para que el contraste sea estadísticamente válido en cada celda de la tabla deberá existir un mínimo de 5 observaciones. Si no fuera así deberemos agregar filas o columnas, siempre y cuando el tipo de información lo permita.

jueves, 20 de septiembre de 2012

Cursos de Estadística OpenCourseWare en la Universidad Carlos III

La Universidad Carlos III de Madrid promueve la difusión en abierto de material de apoyo a la formación, incentivando la participación de su profesorado en dicha iniciativa. Por ello, la UC3M se adhiere al proyecto del Instituto Tecnológico de Massachusetts (MIT), que ha generado la agrupación de universidades de alto prestigio internacional en torno al Consorcio OpenCourseWare. La misión de esta acción es promocionar la educación y potenciar el conocimiento de manera abierta y sin restricciones.

OpenCourseWare es una herramienta que permite la libre publicación de material y proporciona los contenidos de forma gratuita a usuarios de todo el mundo.

Los cursos gratuitos que promueve la universidad Carlos III relacionados con la Estadística son los siguientes:

Aprendizaje del software estadístico R: un entorno para simulación y computación estadística
Investigación Operativa
Procesos estocásticos con aplicaciones al ámbito empresarial

No se trata de un servicio de formación a distancia, por tanto no se otorga ningún tipo de acreditación ni certificado de aprovechamiento por haber utilizado dichos contenidos.

Toda la información aquí

martes, 18 de septiembre de 2012

La Estadística y el Póquer

En la excelente e interesante web Jot Down, léemos una entrevista con el jugador de Póquer Raúl Mestre, donde repasa brevemente la base estadística que subyace en este popular juego de cartas. Publicamos a continuación una extracción de la entrevista, puedes leerla íntegramente aquí.

¿Pero os habéis planteado —ya que vuestro éxito se basa, entre otras cosas, en el dominio de las matemáticas, estrategias de investigación multidisciplinar— hablar con científicos, con matemáticos, para mejorar los algoritmos con los que trabajáis?

Cuando hablas con un científico la primera idea que te trasmite es la de crear algoritmos que sean convertibles en un bot. Cuando les dices que esto no es legal lo descartan, porque aunque podrían invertir su tiempo en el desarrollo de un algoritmo, el que luego lo tengan que aplicar ellos personalmente no les seduce en absoluto. También hay una realidad, y es que la matemática que subyace en el póquer no es tan complicada. Sí hay quizá algunos estudios más complejos, pero no llega ni mucho menos al nivel de la física cuántica; en el póquer, con que tengas un buen dominio de la estadística, no solo en el porcentaje sino quizá algo más, ya vas bien servido.

Trabajáis sobre todo con grandes muestras y la varianza, que son las variables fundamentales.

Sí, a ver; al final, el encanto del póquer como juego, lo que lo hace tan estudiable, es que hay unas reglas fijas que se cumplen siempre. Esto por desgracia en el mundo real no sucede casi nunca. Pero aquí sabes que tienes 52 cartas, que la distribución es aleatoria y que las reglas son fijas en todas las manos. Con estos datos solo es necesario hacer estudios estadísticos de las jugadas que serán más rentables. Puedes basarte en muestras de jugadores que han jugado muchas manos y ver qué les ha sido rentable, y en otras muchas situaciones simplemente harás análisis teóricos de las situaciones que estás estudiando para ver como debería ser el juego. Contado así suena muy complicado, pero en la práctica es relativamente sencillo. Además no olvidemos una cosa muy importante: no necesitas ser el jugador de póquer perfecto; sólo necesitas jugar mejor que los jugadores de tu mesa.

Hay un uso generalizado de software de apoyo para el cálculo de probabilidades, ¿tenéis los vuestros o utilizáis algún desarrollo comercial?

Hay gran cantidad de software de apoyo en el mundillo del póquer que te ayuda a calcular probabilidades, una mano enfrentada contra un conjunto de manos, una mano contra otra, probabilidades de ligar cada tipo de mano… todo esto es como las herramientas, la base, el ABC que un jugador de póquer debe conocer para después poder tomar buenas decisiones. Si no sabes cuánto a menudo gana tu mano, o cuánto a menudo ligas cada tipo de mano, difícilmente las decisiones que tomes después van a ser acertadas, claro. Porque ya estás partiendo de una premisa… si yo no sé que tengo un 25 por ciento de probabilidades de ligar la mano fuerte o en cada tipo de mano el porcentaje que sea, las decisiones que tome,¿en qué las baso? ¿me estoy basando en, no sé, en mis creencias? ¿en que la mano me parezca bonita?

¿Intuición?

Si quieres tomártelo en serio necesitas basarte en algo un poco más sólido. Todos estos programas de soporte son la base para la toma de decisiones, y a partir de la información que te suministran se construye una estrategia.

¿Qué es el teorema de Genugten?

Puedes jugar a póquer sin tener la menor idea de teoremas estadísticos, de la campana de Gauss o del teoreama de Genutgen, no te hace falta conocer los fundamentos matemáticos, o sea, si eres un físico que los conoce te puede ayudar a nivel intelectual, pero no te es necesario. Lo que sí te hace falta es tener esos conocimientos para poder desarrollar una estrategia. Esto es, puedes utilizar las estrategias sin tener los conocimientos, lo que no puedes es desarrollar estrategias sin tenerlos.

jueves, 13 de septiembre de 2012

Medidas de Dispersión

Así como las medidas de tendencia central nos permiten identificar el punto central de los datos, las Medidas de dispersión nos permiten reconocer qué tanto se dispersan los datos alrededor del punto central; es decir, nos indican cuanto se desvían las observaciones alrededor de su Media (promedia aritmético). Este tipo de medidas son parámetros informativos que nos permiten conocer como los valores de los datos se reparten a través de eje X, mediante un valor numérico que representa el promedio de dispersión de los datos. Las medidas de dispersión más importantes y las más utilizadas son la Varianza y la Desviación estándar (o Típica).

Varianza

Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los valores respecto a su punto central (Media X). Este promedio es calculado, elevando cada una de las diferencias al cuadrado (Con el fin de eliminar los signos negativos), y calculando su promedio o media; es decir, sumado todos los cuadrados de las diferencias de cada valor respecto a la media y dividiendo este resultado por el número de observaciones que se tengan. Si la varianza es calculada a una población (Total de componentes de un conjunto), la ecuación sería:

Donde sigma cuadrado (es decir, la ecuación) representa la varianza, (Xi) representa cada uno de los valores, (Nu) representa la media poblacional y (N) es el número de observaciones ó tamaño de la población. En el caso que estemos trabajando con una muestra la ecuación que se debe emplear es:

Donde (S2) representa la varianza, (Xi) representa cada uno de los valores, ( X_) representa la media de la muestra y (n) es el número de observaciones ó tamaño de la muestra. Si nos fijamos en la ecuación, notaremos que se le resta uno al tamaño de la muestra; esto se hace con el objetivo de aplicar una pequeña medida de corrección a la varianza, intentando hacerla más representativa para la población. Es necesario resaltar que la varianza nos da como resultado el promedio de la desviación, pero este valor se encuentra elevado al cuadrado.

Desviación Típica o Desviación Estándar

Esta medida nos permite determinar el promedio aritmético de fluctuación de los datos respecto a su punto central o media. La desviación estándar nos da como resultado un valor numérico que representa el promedio de diferencia que hay entre los datos y la media. Para calcular la desviación estándar basta con hallar la raíz cuadrada de la varianza, por lo tanto su ecuación sería:

Para comprender el concepto de las medidas de distribución vamos a suponer que el gerente de una empresa de alimentos desea saber que tanto varían los pesos de los paquetes (en gramos), de uno de sus productos; por lo que opta por seleccionar al azar cinco unidades de ellos para pesarlos. Los productos tienen los siguientes pesos (490, 500, 510, 515 y 520) gramos respectivamente. Por lo que su media es:

La varianza sería:

Por lo tanto la desviación estándar sería:

Con lo que concluiríamos que el peso promedio de los empaques es de 507 gramos, con una tendencia a variar por debajo o por encima de dicho peso en 12 gramos. Esta información le permite al gerente determinar cuánto es el promedio de perdidas causado por el exceso de peso en los paquetes.

miércoles, 12 de septiembre de 2012

Curso de Sas en la Fundación Uned

El objetivo es capacitar a los alumnos para llevar a cabo análisis de información con el sistema estadístico SAS en el campo de la economía pública, así como en otros campos del conocimiento. Este curso persigue, esencialmente, trabajar con el sistema SAS de un modo sencillo incidiendo en la facilidad de análisis y transformación de grandes volúmenes de datos. Se estudiarán los métodos econométricos y las técnicas de análisis multivariante de datos, con especial hincapié en la interpretación de los resultados. También se estudiará la econometría de series temporales, incluyendo teoría de la cointegración y modelos con datos de panel.

Fecha: Del 19 al 23 de noviembre de 2012. Precio del Curso: 320 Euros.
Lugar: El curso se desarrollará en Madrid, en el Instituto de Estudios Fiscales (Avda. del Cardenal Herrera Oria 378 – 28035-Madrid), Aula 2.12

Más información: aquí

jueves, 6 de septiembre de 2012

Máster Universitario en Minería de Datos e Inteligencia de Negocios

Uno de los objetivos del blog Estadístico es publicar información relevante sobre cursos y formación relacionada con la Estadística. En el próximo mes, comenzará en la Escuela Universitaria de Estadística de la Universidad Complutense el primer Máster Universitario en Minería de Datos e Inteligencia de Negocios.

El Máster en Minería de Datos e Inteligencia de Negocios, ha obtenido la aprobación definitiva de la ANECA y se impartirá durante el próximo curso 2012-2013. Tiene un carácter multidisciplinar y se impartirá en colaboración con la Facultad de Informática, de Ciencias Económicas y Empresariales, la Escuela U. de Estudios Empresariales y la empresa SAS.

Más información aquí.

domingo, 2 de septiembre de 2012

Introducción a los Árboles de Decisión

Un Árbol de Decisión es un modelo de predicción utilizado para modelar construcciones lógicas sobre el contenido de bases de datos, para la toma decisiones en base a esas entradas, es decir, es una forma gráfica y analítica de representar todos los eventos que pueden surgir a partir de una decisión asumida en cierto momento.

Los valores que pueden tomar las entradas y las salidas pueden ser discretos o continuos. Cuando se utilizan valores discretos se habla de modelos de clasificación y cuando son continuos de modelos de regresión.

Un Árbol de Decisión realiza un testeo a medida que recorre sus hojas hasta alcanzar una decisión. En un árbol se distinguen: nodos internos, nodos de probabilidad, nodos hoja y ramas.

Nodo de decisión:
Indica que una decisión necesita tomarse en ese punto del proceso. Está representado por un cuadrado.

Nodo de probabilidad:
Indica que en ese punto del proceso ocurre un evento aleatorio. Está representado por un círculo.

Rama:
Nos muestra los distintos caminos que se pueden emprender cuando tomamos una decisión o bien ocurre algún evento aleatorio:

q Los Árboles de Decisión se utilizan para descubrir patrones en los datos, se recogen estas pautas y se organizan en modelos que se utilizarán posteriormente para hacer predicciones.

q Los árboles son gráficos en los que cualesquiera dos nodos están conectados por exactamente un camino. Cada nodo es un camino elegido sobre la base de las pruebas realizadas en los atributos de entrada, hasta que al final de una “hoja” se alcanza un nodo. El nodo hoja representa una decisión y se utiliza como el resultado previsto para nuevos y desconocidos datos venideros.

Ejemplo de Árbol de Decisión

Una compañía de seguros nos ofrece una indemnización por accidente de 210.000$. Si no aceptamos la oferta y decidimos ir a juicio podemos obtener 185.000$, 415.000$ o 580.000$dependiendo de las alegaciones que el juez considere aceptables. Si perdemos el juicio, debemos pagar las costas que ascienden a30.000$.Sabiendo que el 70% de los juicios se gana, y de éstos, en el 50% se obtiene la menor indemnización, en el 30% la intermedia y en el 20% la más alta, determinar la decisión más acertada.