MasMatemáticas
Apuntes de Estadísticas

 

Búsqueda personalizada

 

Análisis de Correlación

 

 

¿Que es correlación?

arriba

Correlación es un grupo de técnicas estadísticas usadas para medir la fuerza de la relación entre dos variables. Su estudio involucra cuestiones como: ¿hay una relación entre los promedios de la preparatoria y los promedios de primero en la universidad? ¿Hay una relación entre los gastos en publicidad de un negocio y sus ventas? ¿Hay una relación entre el número de años en el trabajo y la productividad?

¿Qué es el análisis de correlación simple?

La correlación simple mide la fuerza y la dirección de una relación lineal entre solo dos variables aleatorias. Suponga que estamos interesados en un grupo de estudiantes universitarios. Queremos determinar la relación entre su promedio en preparatoria y su promedio después del primer año en la universidad. Los promedios de una muestra de cuatro estudiantes son:

Estudiante Promedio de preparatoria Promedio de universidad
Miguel 8.0 7.9
Pancho 7.1 7.3
Josefa 9.0 8.9
Porfirio 8.8 6.9

Parece haber alguna relación entre los promedios de la preparatoria y los promedios en la universidad. Esta sería, aquellos con altos promedios en preparatoria tienen altos promedios en la universidad. Sin embargo la relación no es perfecta, Porfirio, por ejemplo, tiene alto promedio en la preparatoria y bajo en la universidad.

En lugar de hablar de generalidades, como lo hemos hecho, ahora usaremos medidas estadísticas para representar y explicar mas precisamente la relación entre las dos variables. Este grupo de técnicas estadísticas se conocen como Análisis de Correlación.

El propósito básico del análisis de correlación es encontrar que tan fuerte es la relación entre dos variables. Para hacerlo se cuenta varias medidas estadísticas como el coeficiente de correlación, el coeficiente de determinación y el diagrama de dispersión.

 

Diagrama de dispersión

arriba

El diagrama de dispersión es una gráfica que describe la relación entre las dos variables de interés.

Ejemplo.

El director de recursos humanos de Ventas S.A. está entrevistando y seleccionando nuevos vendedores. El ha diseñado una prueba que le ayudará a realizar la mejor selección posible para la fuerza de ventas. Con el fin de probar la validez de la prueba para predecir las ventas semanales, él eligió vendedores experimentados y aplicó la prueba a cada uno. La calificación de cada vendedor fue entonces pareada con sus ventas semanales. ¿Cómo se presentan estos datos pareados en un diagrama de dispersión?

Calificaciones y ventas semanales de 5 vendedores de Ventas S.A.
Vendedor Calificación Ventas semanales
José Luis 4 5,000
Rufino 7 12,000
Frida 3 4,000
Diego 6 8,000
José Clemente 10 11,000

El director de recursos humanos cree que la calificación de la prueba era un buen factor para predecir las ventas semanales, esto implica que las ventas semanales dependen de la calificación de la prueba, por lo tanto, a las ventas las identificaremos como variable dependiente y a las calificaciones como variable independiente.

La variable dependiente la graficaremos sobre el eje vertical ( Y ) y la independiente sobre el eje horizontal ( X ). Para graficar los datos de José Luis marcaremos el punto donde se cruzan el valor de X = 4 y de Y = 5000, repitiendo el procedimiento con los demás vendedores.

Note en el diagrama de dispersión que mientras mas aumentan las calificaciones mas aumentan las ventas semanales, esto nos hace pensar que existe una relación fuerte entre ambas variables. Para medir esa relación ( correlación ) necesitamos calcular el coeficiente de correlación.

 

 

Coeficiente de Correlación de Pearson

arriba

Creado por Karl Pearson en 1900, que también se le llama coeficiente de correlación momento - producto de Pearson ( r de Pearson ), describe la fuerza de la relación entre dos variables. Se representa con la letra r, y puede asumir valores desde –1.00 hasta +1.00 inclusive. Un coeficiente de correlación de +1.00 indica una perfecta correlación positiva, es decir, en todos los pares de valores la variable dependiente ( y ) incrementa su valor en la misma proporción que como incrementa su valor la variable independiente. Una coeficiente de correlación de –1.00 indica una perfecta correlación negativa, esto es que mientras aumenta el valor de la variable independiente, el valor de la variable dependiente disminuye. En el diagrama de dispersión una correlación perfecta se muestra como una línea recta formada por los pares de valores de las dos variables.

Si no hay ninguna relación entre las dos variables entonces el coeficiente de correlación será cero ( r = 0 )

Un coeficiente de correlación cercano a cero, digamos +.08 o -.08, muestra que la relación entre las variables es débil. Coeficientes de -.91 y +.91 tienen igual fuerza, ambos indican una muy fuerte correlación entre las dos variables.

El siguiente esquema resume la fuerza y dirección del coeficiente de correlación.

La fórmula de r es:

r =   nSxy - SxSy
[nSx² - (Sx)²][nSy²- (Sy)²]

Donde:

n es el número de pares de observaciones

Sx es la suma de la variable independiente ( x )

Sy es la suma de la variable dependiente ( y )

S es la suma de los cuadrados de x

(Sx)² es el cuadrado de la suma de x

S es la suma de los cuadrados de y

(Sy)² es el cuadrado de la suma de y

Ejemplo:

Calcular el coeficiente de correlación para el ejemplo que involucre las ventas semanales y las calificaciones de los vendedores.

Calificaciones y ventas semanales de 5 vendedores de Ventas S.A.
Vendedor Calificación
(x)
Ventas
(y)
xy
José Luis 4 5 16 20 25
Rufino 7 12 49 84 144
Frida 3 4 9 12 16
Diego 6 8 36 48 64
José Clemente 10 11 100 110 121
total 30 40 210 274 370

r =   nSxy - SxSy
  =   (5)(274) - (30)(40)
  =  0.88
[nSx² - (Sx)²][nSy²- (Sy)²] [(5)(210) - (30)²][(5)(370) - (40)²]

La práctica usual es redondear r a la centésima mas próxima, en este problema esto es 0.88, indicando una muy fuerte relación entre las calificaciones y las ventas semanales de los vendedores. Esto hace parecer que la prueba del director de recursos humanos tiene potencial para predecir las ventas semanales.

 

El coeficiente de determinación

arriba

En el previo ejemplo sobre la relación entre las calificaciones y las ventas semanales de los vendedores el coeficiente de correlación de 0.88 fue interpretado como muy fuerte. Los términos fuerte , moderado y débil, no tienen un significado muy preciso. Una medida que da un significado mas exacto es el coeficiente de determinación. Este es calculado elevando al cuadrado el coeficiente de correlación. En el ejemplo, el coeficiente de determinación (r²) es de 0.77, encontrado por ( 0.88 )². Este es una proporción o porcentaje, podemos decir que el 77% de la variación en las ventas semanales es explicado por la variación en las calificaciones de la prueba.

Coeficiente de determinación es la proporción de la variación total en la variable dependiente Y que es explicada por la variación en la variable independiente X.

El coeficiente de no determinación

El coeficiente de no determinación es la proporción de la variación total en Y que no esta explicada por la variación en X. Este coeficiente se calcula con 1 – r². En el problema del ejemplo es 1 – ( .88 )² = .23. Esto significa que el 23% de la variación total en las ventas semanales explicado por la variación en las calificaciones de las pruebas.

Los coeficientes de determinación y de no determinación pueden solamente ser positivos y pueden asumir valores entre 0 y 1.00 inclusive.

 

Prueba de significancia de el coeficiente de correlación

arriba

Recordemos que el director de recursos humanos en Ventas S.A. diseñó una prueba para predecir las ventas semanales. El coeficiente de correlación entre las calificaciones de las pruebas y las ventas fue calculado en 0.88 , esto indica una fuerte correlación entre las dos variables. Sin embargo, solo fueron incluidos cinco vendedores en el experimento. Por lo tanto, uno podría preguntarse si la correlación de la población (todos los vendedores de la compañía) puede ser de cero ( sin correlación ).

Entonces debemos probar la hipótesis de que la población de donde provienen las observaciones tiene correlación cero ( simbolizada con la letra griega r que se pronuncia rho ).

En el ejemplo las hipótesis serán:

Ho: r = 0 ( La correlación en la población es cero )

Ha: r <> 0 ( La correlación en la población es diferente de cero)

Para la forma de la hipótesis alterna sabemos que la prueba es de dos colas.

Usando un nivel de significancia de a = 0.10.

Los grados de libertad se calculan f = n – 2 , en este ejemplo f = 5 – 2 = 3.

Se localiza el valor crítico en la tabla t de student:

tabla "t" a/2 = .05
f = n - 2 = 3 t = 2.35336

Entonces t = 2.35336

La fórmula para calcular t* ( el estadístico de prueba )es:

t* =  r n - 2
1 - r²

Entonces:

t* =  r n - 2   =  (0.88) 5 - 2   =  3.21
1 - r² 1 - 0.88²

Se localizan en la gráfica los valores críticos y el valor del estadístico de prueba.

El valor del estadístico de prueba ( t* = 3.21 ) cae dentro de la zona crítica, por lo tanto se acepta la hipótesis alterna con un nivel de significancia de a = 0.10. Esto significa que la correlación no es cero. Para un punto de vista práctico, esto indica al director de recursos humanos que si hay correlación entre las calificaciones de las pruebas y las ventas semanales de la población de vendedores.

 

Problemas

arriba

1. La directora de una preparatoria en Pennsylvania encuestó a 20 egresados del plantel. Ella registró el número de años de estudio posteriores a los estudios de preparatoria y los ingresos anuales individuales en el último año. Ella quiere saber si hay una asociación entre las dos variables. La información encontrada está listada en la siguiente tabla:
Número de años de estudios después de la preparatoria y el ingreso anual
Años después de prepa Ingreso anual (miles)
0 31.6
4 35.6
0 28.0
4 50.2
1 34.0
4 31.7
1 30.5
5 48.0
1 27.8
5 36.5
2 29.5
6 50.6
2 26.8
6 63.9
2 31.2
7 57.6
3 34.2
7 61.2
3 39.8
7 54.9

a) Dibujar un diagrama de dispersión

b) Calcular el coeficiente de correlación e interpretarlo

c) Calcular el coeficiente de determinación e interpretarlo

d) Probar si hay o no correlación entre los años de estudio después de preparatoria y los ingresos anuales de la población de egresados, con un nivel de confianza de a = .05

 

2. El centro de consulta estadística de la Universidad de Virginia analizó datos de marmotas para el departamento de medicina veterinaria. El objetivo del estudio es determinar si hay una relación entre el peso corporal (en gramos) y el peso del corazón (en gramos). Se obtuvieron los siguientes datos:

Peso corporal (gr) Peso del corazón (gr)
4050 11.2
3690 10.8
2465 12.4
2800 14.2
3120 10.5
2775 12.2
5700 13.2
2170 10.0
2595 9.8
2370 12.3
3640 11.0
2055 12.5
2050 10.8
2025 11.8
4235 10.4
2645 16.0
2935 12.2
2675 13.8
4975 11.2

a) Dibujar un diagrama de dispersión

b) Calcular el coeficiente de correlación e interpretarlo

c) Calcular el coeficiente de determinación e interpretarlo

d) Probar si hay o no correlación entre el peso corporal y el peso del corazón de la población de marmotas, con un nivel de confianza de a = .01

 

3. Una cadena de tiendas de electrónica tiene puntos de venta en varias ciudades. El gerente de ventas planea lanzar al aire un comercial de televisión de cámaras de video en estaciones locales de televisión previo a una gigantesca venta de videocámaras de sábado y domingo. El gerente planea obtener las cifras de venta de videocámaras en sábado y domingo en varios puntos de venta y parearlos con el número de veces que el comercial aparece en la estación de TV local. El propósito principal de esta investigación es encontrar si hay alguna relación entre el número de veces que aparece el comercial y las ventas de cámaras de video. Las cifras fueron las siguientes:

Localización de la estación de TV Número de comerciales Ventas de sábado-domingo (miles)
Bufalo 4 15
Albany 2 8
Erie 5 21
Syracuse 6 24
Rochester 3 17

a) Dibujar un diagrama de dispersión

b) Calcular el coeficiente de correlación e interpretarlo

c) Calcular el coeficiente de determinación e interpretarlo

d) Probar si hay o no correlación poblacional entre el número de veces que aparece el comercial de TV y las ventas de cámaras de video, con un nivel de confianza de a = .01

 

4. Sabin Motorcycle Works planea desarrollar un folleto para su nueva y revolucionaria motocicleta X2B. Una de las facetas a ser exploradas y registradas es la cuestión velocidad – consumo de combustible. ¿Hay una relación lineal entre la velocidad de la motocicleta y las millas por galón de combustible? Pruebas de pista revelaron lo siguiente:

Velocidad constante ( millas / hora) Consumo de combustible (millas / galón)
40 54
30 60
70 37
50 46
60 48

a) Dibujar un diagrama de dispersión

b) Calcular el coeficiente de correlación e interpretarlo

c) Calcular el coeficiente de determinación e interpretarlo

d) Probar si hay o no correlación poblacional entre la velocidad de la motocicleta y el consumo de combustible, con un nivel de confianza de a = .01

 

5. Un proyecto de investigación en Plásticos Grumann fue emprendido para determinar si hay una relación entre los años de servicio y el nivel de eficiencia de un empleado. El objetivo de el estudio es predecir el nivel de eficiencia de un empleado basado en los años de servicio. Los resultados de la muestra fueron:

Empleado Años de servicio Nivel de eficiencia
Isaac 1 6
Maria 20 5
Tomás 6 3
Alberto 8 5
Blas 2 2
Guillermo 1 2
Alejandro 15 4
Florencia 8 3

a) Dibujar un diagrama de dispersión

b) Calcular el coeficiente de correlación e interpretarlo

c) Calcular el coeficiente de determinación e interpretarlo

d) Probar si hay o no correlación entre los años de servicio y el nivel de eficiencia en la población de empleados de Plásticos Grumann, con un nivel de confianza de a = .05

 

6. El departamento de producción de NDB Electronics quiere explorar la relación que existe entre el numero de empleados que ensamblan componentes y el numero de piezas producidas. Como un experimento asigno a diferentes cantidades de empleados para ensamblar componentes y registró la cantidad de piezas producidas en una hora. La serie de pares de observaciones es la siguiente:

Número de empleados Unidades producidas en una hora
2 15
4 25
1 10
5 40
3 30

a) Dibujar un diagrama de dispersión

b) Calcular el coeficiente de correlación e interpretarlo

c) Calcular el coeficiente de determinación e interpretarlo

d) Probar si hay o no correlación poblacional entre el número de empleados que ensamblan componentes y el número de piezas producidas, con un nivel de confianza de a = .1

 

7. Los siguientes datos representan las calificaciones de matemáticas para una muestra aleatoria de 12 alumnos de primer grado de cierta universidad junto con sus calificaciones de una prueba de inteligencia que se les aplicó cuando aún eran alumnos del último año de preparatoria:

Estudiante Calificación prueba de inteligencia Calificación prueba de matemáticas
Mario 65 85
Roberto 50 74
Manuel 55 76
María Antonieta 65 90
Gaspar 55 85
Eugenio 70 87
Gilberto 65 94
Eva 70 98
Florinda 55 81
Elizabeth 70 91
Claudia 50 76
Cristina 55 74

a) Dibujar un diagrama de dispersión

b) Calcular el coeficiente de correlación e interpretarlo

c) Calcular el coeficiente de determinación e interpretarlo

d) Probar si hay o no correlación poblacional entre la calificación de la prueba de inteligencia y la calificación de la prueba de matemáticas, con un nivel de confianza de a = .03

 

8. Los siguientes datos se obtienen en un estudio de la relación entre el peso y el tamaño del tórax de infantes al nacer:

Peso ( Kg. ) Tamaño del tórax ( cm. )
2.75 29.5
2.15 26.3
4.41 32.2
5.52 36.5
3.21 27.2
4.32 27.7
2.31 28.3
4.3 30.3
3.71 28.7

a) Dibujar un diagrama de dispersión

b) Calcular los coeficientes de correlación y determinación y analizarlos

c) Probar si hay o no correlación poblacional entre el peso de los niños y el tamaño de su tórax, con un nivel de confianza de a = .06