Colabore con el blog Estadistica

jueves, 11 de octubre de 2007

Investigación on line

La investigación de mercados a través de Internet va cobrando fuerza en España, a medida que se elimina el sesgo derivado de las muestras online y se mejoran metodología, herramientas y tecnología. En este artículo, publicado en baquia.com, Enric Cid (Director de Proyectos de Netquest) analiza la situación actual de este campo en España.


El investigador de mercados ha ido despertándose progresivamente hacia el canal online. Sus reticencias iniciales se basaban principalmente en un problema muestral: dado que la población de Internet no se distribuye como la población española en general, usar Internet -a pesar de sus ventajas en costes y en rapidez- era equivalente a obtener un sesgo en los resultados. En otras palabras, si algunos miembros de la población que queremos estudiar no acceden a Internet, la probabilidad de que sean seleccionados es igual a cero. No obstante, con el tiempo ha quedado patente que Internet no sólo supone una ventaja en costes y rapidez, sino que es un mejor medio para hallar ciertos perfiles; pues, ¿qué probabilidad hay de encontrar en casa a un joven urbanita?
El eje de todo este debate está en si el factor "estar conectado a Internet" supone un sesgo respecto a lo que queramos investigar. En muchos casos no es así, y en el resto hay un conjunto de variables demográficas y de estilo de vida con las que es posible controlar este sesgo. En este sentido Eva López Reusch, responsable de Estudios IT de Escario y Asociados, presentó, bajo el título La Investigación Online vs. la Investigación Offline, una comparativa entre una misma encuesta de satisfacción llevada a cabo online y offline. Eva subrayó como no existen diferencias entre los resultados online y los offline, y en cambio la investigación online se realizó de manera mucho más eficiente en costes y en tiempo. La prueba de ello es que la investigación online es una realidad contrastada en muchos mercados.
En Gran Bretaña, por ejemplo, YouGov (instituto de investigación basado principalmente en Internet) logró la estimación más ajustada de los resultados electorales en las últimas generales superando a los institutos "tradicionales" y demostrando la validez de Internet para el trabajo de campo. Y en el mercado estadounidense se estima que la investigación a través de Internet representa cerca del 20% de la facturación total que generaron las encuestas. Como tendencias destacan:
  • La realización de proyectos de investigación con campos paralelos: parte online, parte offlline.
  • Proyectos de investigación que hacen un uso combinado de elementos (o fases) online y offline. Por ejemplo: centros comerciales, cafés de Internet, publicidad en el punto de venta, o el propio pack del producto, son medios para captar encuestados para un cuestionario online y, viceversa, se esta usando Internet para la captación de personas para entrevistas personales, telefónicas, focus groups, etc.

Adicionalmente, cabe señalar que los avances de la investigación online a nivel técnico también han sido sustantivos. Hoy una encuesta online ya no es "colgar un formulario" en una página web, sino que ofrece un conjunto de posibilidades en tipos de cuestionarios, en consistencia de las respuestas y en material de apoyo que son el sueño de cualquier investigador.

miércoles, 26 de septiembre de 2007

Encuestas a través de SMS

Las encuestas a través de SMS son el mejor método de investigación en ciertas circunstancias ya que la mayoría de la población adulta utiliza hoy en día los mensajes SMS, muchas personas llevan el teléfono móvil a todas partes y en todo momento. Como consecuencia, pueden recibir y decidir al instante si desean responder a un mensaje. Una de las condiciones imprescindibles para obtener resultados relevantes en la investigación de mercado es que las preguntas se formulen correctamente y que el sistema de respuesta sea sencillo.

Aun así, existen unas limitaciones o desventajas acerca de lo que se puede preguntar a través de SMS. El tamaño del mensaje es bastante restrictivo, y también hay límites impuestos por la dimensión de la pantalla, lo que afecta en gran medida al tipo de preguntas que se pueden enviar y responder por SMS. Por otra parte, se pueden enviar preguntas con una o más respuestas, o también con respuesta abierta, como en las encuestas en línea.

Podrá recibir por SMS tanto invitaciones para participar en encuestas, como recordatorios. De este modo, tendrá la oportunidad de compartir sus experiencias y de manifestar su opinión inmediatamente después de hacer un viaje, o mientras esté de compras en un centro comercial.

martes, 11 de septiembre de 2007

Introducción al Data Mining

1. Definición de Data Mining

Es un proceso de descubrimiento de los patrones, perfiles y tendencias significativas a través del análisis de los datos, mediante el uso de tecnologías de reconocimiento de patrones y técnicas estadísticas y matemáticas.

El Data Mining difiere de otros métodos de análisis de datos de un modo fundamental:
  • Descubre estructuras ocultas, ratios patrones y tendencias.
  • Es una técnica dinámica sólo por el hecho de no necesitar una búsqueda (query) o configurar el análisis para resolver un problema particular antes de realizar la minería.
Para construir un modelo útil se deben descubrir dos aspectos clave dentro del fichero de datos:
  • Los atributos significativos.
  • Los intervalos que identifican un patrón o firma de los clientes de la compañía.
Las herramientas OLAP y Query ofrecen información limitada para la toma de decisiones, ya que aportan información sobre lo que ha ocurrido pero no sobre las causas que han originado esa situación, siendo el analista quien debe deducirlo. Es en este punto donde entran en juego las herramientas de Data Mining, encontrando reglas o hechos de negocio relevantes del estudio particular de una masa de datos de forma inductiva.

2. Objetivos
  • Explicar los fenómenos.
  • Transformar la información en decisiones útiles y eficaces.
  • Permitir la construcción de modelos automáticos e inteligentes.
3. Beneficios
  • Modelos descriptivos: En un contexto de objetivos definidos, permite a las empresas explorar automáticamente, visualizar y comprender los datos e identificar patrones, relaciones y dependencias que impactan en la cuenta de resultados.
  • Modelos predictivos: permite expresar relaciones no descubiertas como reglas de negocio o modelos predictivos.

martes, 28 de agosto de 2007

Error Muestral

Definición: Es el error máximo estadístico de la muestra, válido para el conjunto de todas las distintas muestras que se pueden tomar de la misma población.

Las pruebas empíricas realizadas muestran que la distribución de las medidas de todas las muestra posibles del mismo tamaño en una población se ajusta por lo general a la ley normal de probabilidad (campana de Gauss).



Margen de Confianza o Nivel de Significatividad:
  • De cada 100 potenciales muestras del universo 68% (± s), o 95,5% (±2s), o 99,7% (±3s) van a tener el promedio muestral igual que al del universo.
  • El margen de confianza es la porción de la distribución gaussiana (medida en unidades ± s) que nos proponemos realmente utilizar, es decir es la probabilidad de que una estimación (resultado muestral) se ajuste a la realidad (resultado censal o del universo).
Intervalo o margen de confianza de una variable: Indicador promedio ± Error muestral

Nivel de Confianza (sólo para variables de intervalo y razón): Nº de s

Fórmula del Error Muestral
El error muestral depende:
  • De la amplitud del universo (N).
  • Del tamaño de la muestra (n).
  • De la desviación típica (s) en variables de intervalo y razón. De la variabilidad ( p*q) en variables nominales y ordinales.
Notas: La VARIABLIDAD de una variable nominal u ordinal:
  • Juega el mismo papel que la varianza (s²) en variables de intervalo.
  • Un atributo (variable nominal) o una posición en una escala (variable ordinal)
    representa una proporción (p) de la población frente al resto (q=1-p).
  • Podemos tratar la proporción como una variable booleana.
Ejemplo: Distribución de algunas variables por género
Humanidad.....................Hombres (p=50%).....Mujeres (q=50%)...Variabilidad (p*q=2500)
Estudiantes teleco..........Hombres (p=75%).....Mujeres (q=25%)...Variabilidad (p*q=1875)
Benedictinos del Paular.Hombres (p=100%)..Mujeres (q=0%)......Variabilidad (p*q=0)

Formulas del error:
Población infinita (N>100.000 ) Población finita

De intervalo: E=(s²/n)½ E=((s²/n)·((N-n)/(N-1)))½
De proporción: E=((p·q)/n)½ E=((p·q/n)·((N-n)/(N-1)))½
Donde:
  • E es el error muestral medido en unidades s.
  • N es el tamaño del Universo.
  • n es el tamaño de la muestra.
  • La estimación del error depende del nivel de confianza:
    ERROR= E · nivel de confianza elegido (nº de unidades s )= E · s

Definiciones de Muestreo

  • UNIVERSO: Toda la población o conjunto de unidades que se quiere estudiar y que podría ser observada individualmente en el estudio.
  • MUESTRA: Parte de un conjunto o población debidamente elegida, que se somete a observación en representación del conjunto, con el propósito de obtener resultados válidos para todo el universo.
  • MUESTREO: Procedimiento para escoger la muestra (tamaño y estructura).

martes, 21 de agosto de 2007

Calidad de Servicio

La calidad, y más concretamente la calidad del servicio, es una de las variables estratégicas que más va a influir en la viabilidad empresarial, por ello conviene que se gestione adecuadamente.
El servicio es un término capaz de acoger significados muy diversos. En el caso que nos ocupa hay que entender el servicio como el conjunto de prestaciones accesorias de naturaleza cuantitativa o cualitativa que acompaña a la prestación principal, ya consista ésta en un producto o en un servicio. En la medida en que las organizaciones tengan más dificultades para encontrar ventajas con las que competir, mayor atención tendrán que dedicar al servicio como fuente de diferenciación duradera.
La calidad del servicio también ha sido descrita como una forma de actitud, relacionada pero no equivalente con la satisfacción, donde el cliente compara sus expectativas con lo que recibe una vez que ha llevado a cabo la transacción. Al cliente le resulta más difícil valorar la calidad relacionada con el servicio debido a la intangibilidad del mismo. Por eso la evaluación debe resultar de la comparación de las expectativas con el desempeño del servicio recibido, fijándose para ello tanto en el resultado del proceso, como en la forma en la que se desarrolla el mismo. La diferencia entre calidad del servicio y satisfacción no está del todo clara, si bien se ha generalizado la idea de que la primera se obtiene tras una larga y completa evaluación, mientras que la segunda es la medida de una transacción específica.
Modelo conceptual de calidad del servicio

Un modelo de calidad del servicio no es más que una representación simplificada de la realidad, que toma en consideración aquellos elementos básicos capaces por sí solos de explicar convenientemente el nivel de calidad alcanzado por una organización desde el punto de vista de sus clientes.
Uno de los modelos que mejor resume esta realidad es el de Parasuraman, Zeithaml y Berry (ver figura), donde se distinguen dos partes claramente diferenciadas pero relacionadas entre sí:
  1. La primera hace referencia a la manera en que los clientes se forman una opinión sobre la calidad de los servicios recibidos (parte superior de la figura).
  2. La segunda refleja las deficiencias que pueden producirse dentro de las organizaciones, lo que provoca una falta de calidad en el suministro a los clientes (parte inferior de la figura).
La medición de la calidad se revela como una necesidad asociada al propio concepto de gestión, ya que todo aquello que no se expresa en cifras no es susceptible de gestionarse, y por tanto, de ser mejorado.

Indicadores simples de la calidadFormados por una única medida de la característica a evaluar. Son los más fáciles de medir y los más empleados en entornos empresariales.
  • Los que miden la calidad dentro de las empresas: pueden venir expresados en unidades físicas de materias primas, productos en curso o productos terminados (ejemplos: número de rechazos, número de defectos, etc.); en unidad de tiempo (ejemplos: horas extraordinarias, horas de formación, plazo de entrega a clientes, etc.); y en función de la
    importancia relativa o tanto por ciento del valor a medir (ejemplo: porcentaje de lotes recibidos en plazo).
  • Los que miden la satisfacción de los clientes (ejemplos: el número de reclamaciones, número de clientes que repiten la compra, el plazo de cobro a los clientes, etc.).
ResumenLa calidad es una filosofía que compromete a toda la organización con el propósito de satisfacer las necesidades de los clientes y de mejorar continuamente. Esto la convierte en un elemento estratégico que confiere una ventaja diferenciadora y perdurable en el tiempo a aquellos que tratan de alcanzarla.

Los parámetros de percepción del cliente constituyen un conjunto de datos multidimensional, ya que se analizan simultáneamente múltiples medidas en cada individuo. Así, las técnicas de análisis multivariante se han convertido en una herramienta potencial para evaluar las percepciones del cliente, establecer las posibles relaciones existentes entre parámetros análizados, definir modelos para predecir la Satisfacción Global obtenida por los clientes a partir de los valores de los parámetros de percepción, etc.

Existen diversas técnicas de análisis multivariante aplicadas a la Calidad de Servicio. La utilización de unas u otras dependerá del tipo de variables a analizar (dependientes o independientes, cualitativas o cuantitativas, etc.) y de los objetivos del estudio. Las más utilizadas y que profundizaremos en próximos posts son:
  • Análisis Factorial.
  • Regresión Múltiple.
  • Análisis Discriminante.
  • Análisis de la Varianza y de la Covarianza.
  • Análisis Clúster.
  • Escalamiento Multidimensional.
  • Análisis de Correspondencias.
  • Modelos de Ecuaciones Estructurales.

jueves, 26 de julio de 2007

Análisis de la Varianza (Anova)

El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias. Es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student.

En resumen, el análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos. El método para comparar estos valores está basado en la varianza global observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de varianza se utiliza para asociar una probabilidad a la conclusión de que la media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.

El ANOVA parte de algunos supuestos que han de cumplirse:
  • La variable dependiente debe medirse al menos a nivel de intervalo.
  • Independencia de las observaciones.
  • La distribución de la variable dependiente debe ser normal.
  • Homocedasticidad: homogeneidad de las varianzas.
Existen tres tipos de modelos:
  • El modelo de efectos fijos asume que el experimentador ha considerado para el factor todos los posibles valores que éste puede tomar. Ejemplo: Si el género del individuo es un factor, y el experimentador ha incluido tantos individuos masculinos como femeninos, el género es un factor fijo en el experimento.
  • Los modelos de efectos aleatorios asumen que en un factor se ha considerado tan sólo una muestra de los posibles valores que éste puede tomar. Ejemplo: Si el método de enseñanza es analizado como un factor que puede influir sobre el nivel de aprendizaje y se ha considerado en el experimento sólo tres de los muchos más métodos posibles, el método de enseñanza es un factor aleatorio en el experimento.
  • Los modelos mixtos describen situaciones donde están presentes ambos tipos de factores: fijos y aleatorios.
La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un análisis de regresión lineal).
 
SSTotal = SSError + SSFactores
 
El número de grados de libertad (gl) puede separarse de forma similar y se corresponde con la forma en que la distribución chi-cuadrado describe la suma de cuadrados asociada.
glTotal = glError + glFactores
 
Nota: Por grados de libertad "degrees of freedom" entendemos el número efectivo de observaciones que contribuyen a la suma de cuadrados en un ANOVA, es decir, el número total de observaciones menos el número de datos que sean combinación lineal de otros.

viernes, 20 de julio de 2007

Distribuciones de Frecuencias

El histograma es una representación visual de los datos en la que pueden observarse más fácilmente tres propiedades esenciales de una distribución como son: forma, tendencia central y dispersión. Cuando los datos son numerosos, es muy útil reunirlos en clases.

Las clases deben tener amplitud uniforme y se construye la primera de ellas comenzando con un límite inferior un poco menor que el valor más pequeño de los datos y la última clase finaliza con un límite superior un poco mayor que el valor más grande de los datos.

El agrupamiento de datos en clases condesa los datos originales, lo que da como resultado una pérdida una pequeña pérdida de detalle. Así cuando el número de observaciones es relativamente pequeño o cuando las observaciones sólo toman pocos valores, puede construirse el histograma a partir de la distribución de frecuencias de los datos sin agrupar, dando lugar a los diagramas de barras.
Conceptos:
  • Frecuencia absoluta ni: Es el número de veces ni que se repite un valor xi.
  • Frecuencia relativa: Se denomina frecuenta relativa del valor xi de la variable X la relación por cociente entre el número de veces que aparece al valor xi y el número total de valores de la variable (N). fi= ni / N.
  • Frecuencia absoluta acumulada Ni: Se denomina frecuencia absoluta acumulada del valor xi a la suma de las frecuencias absolutas de los valores de la variable X anteriores o iguales a xi. Su valor es Ni=Σ ni
  • Frecuencia relativa acumulada Fi: Es la frecuencia absoluta acumulada dividida por el número total de valores de la variable. Su valor es Fi = Ni / N.