Colabore con el blog Estadistica

lunes, 24 de septiembre de 2012

Tablas de Contingencia

Para analizar la relación de dependencia o independencia entre dos variables cualitativas nominales o factores, es necesario estudiar su distribución conjunta o tabla de contingencia. La tabla de contingencia es una tabla de doble entrada, donde en cada casilla figurará el número de casos o individuos que  poseen un nivel de uno de los factores o características analizadas y otro nivel del otro factor analizado.

Las tablas de contingencia tienen dos objetivos fundamentales:

1) Organizar la información contenida en un experimento cuando ésta es de carácter bidimensional, es decir, cuando está referida a dos factores (variables cualitativas).

2) A partir de la tabla de contingencia se puede además analizar si existe alguna relación de dependencia o independencia entre los niveles de las variables cualitativas objeto de estudio. El hecho de que dos variables sean independientes significa que los valores de una de ellas no están influidos por la modalidad o nivel que adopte la otra.


Contrastación Estadística de la relación de dependencia para variables cualitativas

Para identificar relaciones de dependencia entre variables cualitativas se utiliza un contraste estadístico basado en el estadístico c2 (Chi-cuadrado), cuyo cálculo nos permitirá afirmar con un nivel de confianza estadístico determinado si los niveles de una variable cualitativa influyen en los niveles de la otra variable nominal analizada.

Siguiendo con el ejemplo propuesto, el cálculo de la Chi-cuadrado nos permitiría saber si el sexo de una persona es un factor determinante en que dicha persona fume o no fume.

¿Cómo podemos determinar si existe una relación de dependencia o independencia entre las variables analizadas?
Dos variables son independientes si:

a) las frecuencias relativas condicionadas son iguales a las frecuencias relativas marginales.
b) O bien si se cumple que la frecuencia relativa conjunta es igual al producto de las frecuencias relativas  marginales.


Veámoslo con el mismo ejemplo anterior:

Frecuencias relativas marginales:
P (ser hombre) = 108/ 233 = 46.4%
P (ser mujer) = 125/ 233 = 53.6%
P (fumar) = 123/ 233 = 52.8%
P (no fumar) = 110/ 233 = 47.2%

Frecuencias relativas conjuntas:
P (hombre y fumar) = 65/ 233 = 27.9%
P (hombre y no fumar) = 43/ 233 = 18.5%
P (mujer y fumar) = 58/ 233 = 24.9%
P (mujer y no fumar) = 67/ 233 = 28.8%

Frecuencias relativas teóricas esperadas en caso de independencia:
E (hombre y fumar) = 46.4% x 52.8% = 24.5%
E (hombre y no fumar) = 46.4% x 47.2% = 21.9%
E (mujer y fumar) = 53.6% x 52.8% = 28.3%
E (mujer y no fumar) = 53.6% x 47.2% = 25.3%

Frecuencias absolutas teóricas esperadas en caso de independencia:
E (hombre y fumar) = 123 * 108 /233 = 57
E (hombre y no fumar) = 108*110/233 = 51
E (mujer y fumar) = 123*125/233 = 66
E (mujer y no fumar) = 125*110/233 = 59

Valor de la Chi-cuadrado:

 
Dado que el valor calculado de la c2 para un nivel de confianza del 95% (5% nivel de significación) es mayor que el valor de tablas, se rechaza la hipótesis nula de independencia entre los factores, aceptando por tanto que el sexo de una persona influye en que ésta sea fumadora o no. 
 
El problema de la $c2 es que está influenciada por el tamaño muestral, es decir, que a mayor número de casos  analizados (a mayor N), el valor de la $c2 tiende a aumentar, por lo que cuanto mayor sea la muestra más fácil será que rechacemos la hipótesis nula de independencia, cuando a lo mejor podrían no ser independientes.
 
Otro aspecto a tener en cuenta a la hora de realizar este contraste, es que para que el contraste sea estadísticamente válido en cada celda de la tabla deberá existir un mínimo de 5 observaciones. Si no fuera así deberemos agregar filas o columnas, siempre y cuando el tipo de información lo permita.

No hay comentarios: