MasMatemáticas
Apuntes de Estadísticas

 

Búsqueda personalizada

 

Inferencias relativas a la variabilidad

 

 

La distribución F

arriba

Recibió este nombre en honor a Sir Ronald Fisher, uno de los fundadores de la estadística moderna. Esta distribución de probabilidad se usa como estadística prueba en varias situaciones. Se emplea para probar si dos muestras provienen de poblaciones que poseen varianzas iguales. Esta prueba es útil para determinar si una población normal tiene una mayor variación que la otra y también se aplica cuando se trata de comparar simultáneamente varias medias poblacionales. La comparación simultánea de varias medias poblacionales se conoce como análisis de varianza (ANOVA). En ambas situaciones, las poblaciones deben ser normales y los datos tener al menos la escala de intervalos.

La distribución F se define como la razón entre dos distribuciones ji cuadrada independientes, dividida cada una de ellas entre sus respectivos grados de libertad.

F =   c1²
n1
c2²
n2

Si las dos varianzas poblacionales son iguales la fórmula se reduce a:

F =   c1²   =   ( n1 - 1) s1²   =   s1²   =  
n1 n1s1² s1² s1²
c2² ( n2 - 1) s2² s2² s2²
n2 n2s2² s2 ²

Si las dos varianzas poblacionales son iguales, se genera una distribución F con promedio de 1. Si las varianzas de la población no son iguales, la distribución de las razones será también una distribución F, pero el promedio no será igual a 1.

Cuando las varianzas reales son iguales, a la distribución F generada se le llama distribución F tabulada, ya que es la distribuciónF que aparece en la tabla. Por lo anterior, cuando un valor de F calculada ( F* ) es mayor al obtenido de la distribución F tabulada ( tabla ), nos indica que la diferencia entre las dos varianzas es significativa y se acepta Ha, en caso contrario, se considera que la diferencia se debe al azar y por lo tanto se acepta Ho.

Características de la distribución F

1. Hay una “familia” de distribuciones F. Cada miembro de esta familia esta determinado por los grados de libertad del numerador (varianza mayor ) y por los del denominador (varianza menor).

DISTRIBUCIÓN F:     GL1       GL2  

2. La distribución F es una distribución continua y no puede tomar valores negativos.

3. La curva que representa la distribución F esta sesgada hacia la derecha.

4. Su rango de valores va desde 0 hasta infinito, cuanto mas se incrementa F, la curva se aproxima al eje X, pero nunca lo toca.

 

Prueba de hipótesis relativas a la variabilidad de dos poblaciones

arriba

Ejemplo

Cierta compañía de taxis ofrecerá servicio de limosinas del centro de la ciudad al aeropuerto. El presidente de la compañía está considerando dos rutas ( A y B ), que tienen tiempos promedio muy similares, pero diferente variación. Esto es consistente con un conocimiento de las dos rutas, la ruta A tiene mas semáforos, sin embargo la ruta B es algunas millas mas larga. Para ofrecer un servicio puntual y consistente decidió realizar una prueba estadística para determinar si realmente la diferencia entre la variabilidad de los tiempos de las dos rutas es significativa. Se utilizó un nivel de significancia de 0.05

Ruta Tiempo promedio ( min. ) Desviación estándar (min.) Tamaño de la muestra
A 56 12 7
B 59 5 8

Para probar hipótesis relativas a varianzas de dos poblaciones se utlizan los mismos cuatro pasos antes descritos:

1. Establecer las hipótesis

Ha: σ²1 > σ²2   ( La variación es mayor en la ruta A que en la ruta B )

Ho: σ²1 ≤ σ²2   ( La variación no es mayor en la ruta A que en la ruta B )

2. Establecer el criterio de contraste ( F )

El nivel de significancia es

α = .05,

Se calculan los grados de libertad,

En la ruta A

ν = n – 1 = 7 – 1 = 6

En la ruta B

ν = 8 – 1 = 7.

La distribución F está tabulada de la siguiente manera, hay una tabla para cada nivel de significancia, en el renglón de arriba se busca el valor de los grados de libertad de la muestra que tiene la varianza más grande, y en la primer columna el valor de los grados de libertad de la muestra que tiena la varianza más chica.

Valores de F para a = .05 ν de la muestra con
varianza mayor n   = 6
ν de la muestra con
varianza menor n   = 7
F = 3.87

3. Calcular el estadístico de prueba

Se calculan las varianzas de cada una de las muestras:

1 = ( 12 )² = 144

2 = ( 5 )²= 25

Se calcula el valor de F*

F* =     S² mayor  
S² menor
=   144  
25
= 5.76

4. Conclusión

Como el valor del estadístico de prueba es mayor y queda dentro de la zona crítica se acepta Ha, por lo tanto hay suficiente evidencia para afirmar que la variación es mayor en la ruta A que en la ruta B, a un nivel de significancia de .05

 

Ejercicios de aplicación de la distribución F

arriba

1. El embotellador del refresco de cola Vubby se molestó por las ventas que obtiene la cola Buncy, y afirmó que su refresco no solo es tan bueno, sino que su calidad es mucho mas consistente. Un investigador para probar dicha afirmación seleccionó al azar 8 botellas de ambos refrescos y las calificó mediante una escala de 1 para mala calidad y de 10 para buena calidad. Los resultados fueron los siguientes:

Cola Vubby   Cola Buncy
4.5 8.5 9 4 4 10 5 4.5
8 5 6 7 8 9.5 9 6

¿Se puede afirmar con base en estos datos que la calidad de la cola Vubby es mas consistente que la calidad de la cola Buncy, en el nivel de significancia de 0.01?


2. Un investigador quiere probar que el tamaño de un donativo es mas variable si este se hace en forma anónima que cuando se hace públicamente. Para lo cual seleccionó dos muestras de donadores potenciales a los que se les invitó a colaborar económicamente en una obra de beneficencia. A los de la primera muestra se les dice que el donativo va ser anónimo y a los de la segunda que se va hacer pública la cantidad que aportó. Los donativos fueron los siguientes:

Con Anonimato   Sin Anonimato
1000 2000 3000 5000 1500 500 5000 5000
2000 500 4000 1000 3000 5000 3500

¿Se puede afirmar con base en estos datos que es mas variable la donación cuando es anónima que cuando no lo es, en el nivel de significancia de 0.05?


3. Se presume que la variabilidad en el consumo diario de proteínas es la misma para muchachos y muchachas de 15 años. Una muestra aleatoria de 16 muchachas y una muestra aleatoria de 20 muchachos arrojan desviaciones estándar de 24.65 gramos y de 17.88 gramos respectivamente. Si el nivel de significancia es 0.05, ¿son estos resultados consistentes con la suposición?


4. Se quiere determinar si la tendencia hacia el crimen de los niños negros es mas variable que en los niños blancos. Para probar esta hipótesis en el nivel de significancia de 0.05 se aplicó una prueba a dos muestras de niños de estos dos grupos raciales. Las calificaciones, que pueden ir desde 10 (baja tendencia hacia el crimen ) hasta 50 ( alta tendencia hacia el crimen ), son las siguientes:

Negros   Blancos
40 10 10 20 12 14 12 30
11 20 11 22 22 13 13 31
38 15 35 10 24 20
21 12 45

¿Se puede afirmar con base en estos datos que es mas variable la tendencia hacia el crimen en negros que en blancos, en el nivel de significancia de 0.05?


5. Se quiere probar que cuando se estudia en el texto requerido, sin asistir a clases, la calificación obtenida es mas variable que cuando adicionalmente a estudiar el texto se asiste a clases. Se seleccionaron dos muestras de estudiantes, a la primera se le impartieron las clases y el texto de manera usual, a la segunda solo texto sin clases. Las calificaciones fueron las siguientes:

Con clases   Sin clases
5 7 7 10 10 5 6 6 6 5 8 10 8 7 6 5
8 9 7 8 6 10 5 9 7 10 6 9 8 9 7 7
8 6 9 7 6 6 5 5

¿Se puede afirmar con base en estos datos que son mas variables las calificaciones de los estudiantes que no asisten a clases que las calificaciones de los que si asisten, en el nivel de significancia de 0.05?


6. Los puntajes de una prueba de aptitud aplicada a una muestra de 21 profesionistas egresados de universidades públicas y a una muestra de 19 profesionistas egresados de universidades privadas dan varianzas de 876 y 400 respectivamente. Si el nivel de significancia es .05, ¿se puede afirmar que los puntajes de los egresados de las universidades públicas son mas variables que los puntajes de los egresados de las universidades privadas?


7. Se realizó una investigación sobre los hábitos de sintonía de la radio de los hombres y las mujeres. Una faceta del estudio trata sobre el tiempo promedio de sintonía, y reveló que en una muestra de 10 hombres, en promedio sintonizan la radio 35 minutos por día, con una desviación estándar de 10 minutos. En el caso de las mujeres, en una muestra de doce, el tiempo promedio que sintonizan la radio es de 32 minutos con una desviación estándar de 12 minutos.

En el nivel de significancia de .05, pruebe que la variación del tiempo que sintonizan la radio es diferente en hombres que en mujeres.