MasMatemáticas
Apuntes de Estadísticas

 

Búsqueda personalizada

 

Medidas de Variabilidad

 

 

¿Qué son las medidas de variabilidad?

arriba

La puntuación media en una distribución es importante en muchos contextos de investigación. Pero también lo es otro conjunto de estadísticos que cuantifican que tan variables, o que tan dispersas, tienden a ser las puntuaciones. ¿Las puntuaciones varían mucho, o tienden a tener valores muy similares. A veces, la variabilidad en las puntuaciones es la cuestión central en una investigación. La variabilidad es un concepto cuantitativo, de modo que nada de esto se aplica a las distribuciones de datos cualitativos.

Hay varias razones para analizar la variabilidad en una serie de datos. Primero, al aplicar una medida de variabilidad podemos evaluar la medida de tendencia central utilizada. Una medida de variabilidad pequeña indica que los datos están agrupados muy cerca, digamos, de la media. La media, por lo tanto es considerada bastante representativa de la serie de datos. Inversamente, una gran medida de variabilidad indica que la media no es muy representativa de los datos.

Una segunda razón para estudiar la variabilidad de una serie de datos es para comparar como están esparcidos los datos en dos o más distribuciones. Por ejemplo, la calificación promedio de dos estudiantes, A = {90, 80, 75, 75 } y B = {90, 55, 85, 90 }, es de 80. Basados en esto podríamos pensar que sus calificaciones son idénticas. Pero si revisamos el detalle de sus calificaciones vemos que esta conclusión no es correcta.

Hay muchas medidas de variabilidad intuitivamente atractivas, pero poco utilizadas, como el rango, la desviación media y la desviación cuartilar. De lejos, las medidas de variabilidad más ampliamente utilizadas son las que tienen que ver con cómo extender los resultados a partir de la media. Estas son la desviación estándar (s), y la varianza (s² o "var").

Rango

arriba

La forma más sencilla de medir la variabilidad es el rango. Es la diferencia entre los más altos y más bajos valores en un conjunto de datos. En la forma de una ecuación:

Rango = valor más alto - valor más bajo

El rango tiene la ventaja de ser fácil de calcular y entender.

Ejemplo:

Las calificaciones de cinco estudiantes de estadística son: 8, 8, 10, 6, y 8. ¿Cuál es el rango de las calificaciones?

Rango = valor más alto - valor más bajo = 10 - 6 = 4

Rango para datos agrupados

Para estimar el rango de una distribución de frecuencia se resta el límite inferior del intervalo de clase más chico del límite superior del intervalo de clase más grande

Ejemplo:

Una muestra de las edades del público de un concierto se encuentra distribuida de la siguiente manera:

Edades Número de personas
15 - 19 2
20 - 24 1
25 - 29 4
30 - 34 15
35 - 39 10
40 - 44 5
45 - 49 3

Rango = mayor limite superior - menor límite inferior = 49 - 15 = 34

 

 

Desviación media

arriba

La desviación media mide la cantidad promedio que varían los datos respecto a su media. La definición es:

Desviación media es la media aritmética de los valores absolutos de las desviaciones de los datos respecto a su media.

La fórmula de la desviación media ( Dm ) es:

Dm =   Σ |X - X|
      n      

Ejemplo:

Las calificaciones de cinco estudiantes de estadística son: 8, 8, 10, 6, y 8. ¿Cuál es la desviación media de las calificaciones?

X X - X |X - X|
8   0 0
8   0 0
10 +2 2
6 -2 2
8   0     0    
Σ |X - X| =   4    
Dm =   Σ |X - X|
      n      
  =   4
  5  
  = 0.8

Desviación media para datos agrupados

En el caso de que los datos se encuentren agrupados en una distribución de frecuencia la fórmula es :

Dm =   Σ f |X - X|
        n        

Ventajas y Desventajas de la desviación media

La desviación media tiene dos ventajas. Utiliza para su cómputo todos los elementos de la serie de datos y es facil de entender. Sin embargo, es dificil trabajar con valores absolutos y por ello la desviación media no es usada frecuentemente.

 

 

La varianza y la desviación estándar

arriba

Concepto de varianza y desviación estándar

La varianza y la desviación estándar sirven para cuantificar la variabilidad de una muestra midiendo su dispersión alrededor de la media. La definición es la siguiente:

Varianza. Es la media aritmética de las desviaciones cuadradas de los datos respecto a la media.

Desviación estándar. Es la raíz cuadrada de la varianza.

Varianza y Desviación Estándar para datos no agrupados

Las fórmulas de la varianza de una población y de una muestra son ligeramente diferentes. Las fórmulas son:

σ²= Σx²   - ( Σx )²
n
    s²= Σx²   - ( Σx )²
n
N n - 1

varianza de una población

varianza de una muestra

Las desviaciones estándar de la población y muestra se calculan simplemente sacando la raíz cuadrada a la respectiva varianza.

desviación estándar de una población: σ = √σ²

desviación estándar de una muestra:

s = √

Ejemplo

El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la varianza y la desviación estándar de las observaciones muestreadas?

X     X²        
  85.4   7293.16
85.3 7276.09
84.9 7208.01
85.4 7293.16
84.0 7056.00
Σx= 425.0 Σx²= 36126.42

s²= Σx²   - ( Σx )²
n
  =   36126.42 - ( 425 )²
5
  = 0.355
n - 1 5 - 1

s =  √ =  √0.355 =  0.5958

Varianza y Desviación Estándar para datos agrupados

Si los datos están agrupados en una distribución de frecuencia, la varianza y la desviación estándar de la muestra se pueden aproximar sustituyendo Sfx² por Sx² y Sfx por Sx. Las fórmulas quedarían de la siguiente manera:

σ²= Σfx²   - ( Σfx )²
n
    s²= Σfx²   - ( Σfx )²
n
N n - 1

varianza de una población

varianza de una muestra

 

desviación estándar de una población: σ = √σ²

desviación estándar de una muestra:

s = √

Ejemplo:

Calcular la varianza y la desviación estándar de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 baterías para coche.

duración de las baterías (meses) Número de baterías
15 - 19 2
20 - 24 1
25 - 29 4
30 - 34 15
35 - 39 10
40 - 44 5
45 - 49 3

Primeramente, calculamos la marca de clase, para después calcular los productos fX y fx2 para proceder finalmente a calcular las sumatorias SfX y Sfx2 y aplicar las fórmulas.

LI LS X F FX FX2
15 19 17 2 34 588
20 24 22 1 22 484
25 29 27 4 108 2916
30 34 32 15 480 15360
35 39 37 10 370 13690
40 44 42 5 210 8820
45 49 47 3 141 6627
      n =40 ΣfX = 1365 Σfx2 = 48475

 

s²= Σx²   - ( Σx )²
n
  =   48475 - ( 1365 )²
40
  = 48.573
n - 1 40 - 1

s =  √ =  √48.573 =  6.969

 

 

Teorema de Chebyshev

Una pequeña desviación estándar para un grupo de datos, indica que esos valores estan localizados cerca de la media.Inversamente una gran desviación estándar revela que las observaciones están muy dispersas en relación a la media. El matemático Chebyshev (1821-1894) desarrolló un teorema que nos permite determinar la proporción mínima de valores que hay dentro de un numero específico de desviaciones estándar y la media

En terminos generales, el teorema de Chebyshev establece:

Para un grupo de observaciones (muestra o población), la proporción mínima de valores que caen dentro de un intervalo formado por la media ± k desviaciones estándar es por lo menos 1 - 1/k², donde k es una constante más grande que 1.

P( μ - kσ < X < μ + kσ ) ≥ 1 - 1/k²

Basados en el Teorema de Chebyshev, por lo menos tres de cada 4 valores, podrían caer en el intervalo comprendido entre la media más dos desviaciones estándar y la media menos dos desviaciones estándar.

P( μ - kσ < X < μ + kσ ) ≥ 1 - 1/k²

P( μ - 2σ < X < μ + 2σ ) ≥ 1 - 1/2²

P( μ - 2σ < X < μ + 2σ ) ≥ 1 - 1/4

P( μ - 2σ < X < μ + 2σ ) ≥ .75

 

 

 

Coeficiente de variación

El coeficiente de variación se define como la razón de la desviación estándar entre la media aritmética

CV =   σ  
μ
(100)

Ventajas

El coeficiente de variación es útil cuando pretende comparar la variabilidad de dos o más conjuntos de datos expresados en diferentes unidades de medición, pues el resultado será señalado en porcentajes.

Desventajas

Cuando el valor de la media es cercano a cero, el coeficiente de variación es muy sensible a pequeños cambios en la media, limitando su utilidad

A diferencia de la desviación estándar este no puede ser utilizado para elaborar intervalos de confianza para la media.

 

 

Rango intercuartilar

El rango intercuartilar (IQR) es la distancia entre el primer cuartil y el tercer cuartil. Comprende el conglomerado de valores mas cercanos a la media. El IQR es importante cuando dos series de datos similares son comparadas. El IQR no es afectado por valores extremos. En un diagrama de cajas, el IQR es igual a la longitud de la caja.

El rango intercuartilar puede ser calculado por el siguiente procedimiento:

1.- Se ordena la serie de datos

2.- El primer cuartil ( Q1 ) es el valor con posición (¼) (n +1)

3.- El tercer cuartil ( Q3 ) es el valor con posición (¾) (n +1)

4. Calcular el IQR con la siguiente fórmula:

IQR = Q3 - Q1

 

Ejemplo

Las calificaciones de una muestra de cinco estudiantes son: 8, 8, 10, 6 y 8. Calcule el rango intercuartilar.

Primero se ordena la serie de datos

6 8 8 8 10

Q3   es el valor con posición   (¾)( n + 1 ) = (¾)( 5 + 1) = (¾)( 6 ) = 4.5

Q1   es el valor con posición   (¼)( n + 1 ) = (¼)( 5 + 1) = (¼)( 6 ) = 1.5

Encontrar Q3 y Q1 por interpolación.

Dato: 6 Q1 8   8   8 Q3 10
Posición: 1.5°     4.5°

Q1 = 6 + ( 8 - 6 ) ( 1.5 - 1 ) / ( 2 - 1 ) = 7

Q3 = 8 + ( 10 - 8 ) ( 4.5 - 4 ) / ( 5 - 4 ) = 9

IQR = Q3 - Q1 = 9 - 7 = 2

Rango intercuartilar para datos agrupados

El tercer cuartil y el primer cuartil de una muestra de datos agrupados en una distribución de frecuencia pueden ser estimados mediante el siguiente procedimiento:

1. Calcular el valor de (¼) n para Q1, y (¾) n para Q3

2. Localizar el intervalo de clase en el cual Q3 y Q1 se encuentren.

3. Aplicar la fórmula a los valores del intervalo de clase encontrado

Q1 = LSR +   ( ¼n - fa ) tic
f

Q3 = LSR +   ( ¾n - fa ) tic
f

Donde:

LSR     es el límite superior real de la clase que contiene el primer o el tercer cuartil
n es el total de datos o frecuencias.
fa es la frecuencia acumulada de la clase que contiene el primer o el tercer cuartil.
f es la frecuencia de la clase que contiene el primer o el tercer cuartil.
tic es el tamaño del intervalo de clase que contiene el primer o el tercer cuartil.

4. Calcular el rango intercuartilar con la fórmula:

IQR = Q3 - Q1

 

Ejemplo

Una muestra de las edades de la audiencia de un concierto se distribuye como sigue:

Edades Número de personas
15 - 19 2
20 - 24 1
25 - 29 4
30 - 34 15
35 - 39 10
40 - 44 5
45 - 49 3

1. Calcular el valor de n / 4 para Q1, y (¾) n para Q3

(¼) n = (¼) 40 = 10

(¾) n = (¾) 40 = 30

2. Localizar la clase en la cual Q3 y Q1 se encuentren.

LI LS LSR F FA
15 19 19.5 2 2
20 24 24.5 1 3
25 29 29.5 4 7
30 34 34.5 15 22 Q1
35 39 39.5 10 32 Q3
40 44 44.5 5 37
45 49 49.5 3 40

3. Aplicar la fórmula con los valores de la clase encontrada

Q1 = LSR +   ( ¼n - fa ) tic
f
  = 34.5 +   ( 10 - 22 ) 5
15
  = 30.5

Q3 = LSR +   ( ¾n - fa ) tic
f
  = 39.5 +   ( 30 - 32 ) 5
10
  = 38.5

4.- Calcular el rango intercuartilar con la fórmula:

IQR = Q3 - Q1 = 38.5 - 30.5 = 8

 

 

Problemas

Para cada uno de los siguientes problemas calcule :
  (a) la varianza
  (b) la desviación estándar
  (c) la desviación media
  (d) el rango
  (e) el rango intercuartilar
  (f) el coeficiente de variación

1. Los resultados siguientes representan las calificaciones del examen final de un curso de estadística elemental.

23 60 79 32 57 74 52 70 82 36
80 77 81 95 41 65 92 85 55 76
52 10 64 75 78 25 80 98 81 67
41 71 83 54 64 72 88 62 74 43
60 78 89 76 84 48 84 90 15 79
34 67 17 82 69 74 63 80 85 61

2. El gerente de una firma especializada en renta de condominios para vacacionistas, quiere saber como están distribuidas los montos de las rentas mensuales de los departamentos de la firma. Seleccionó una muestra de departamentos cuyas muestras son mostradas abajo.

Rentas mensuales de los condominios
1170 1207 1581 1277 1305 1472 1077 1319 1537 1849
1332 1418 1949 1403 1744 1532 1219 896 1500 1671
1471 1399 1041 1379 821 1558 1118 1533 1510 1760
1826 1309 1426 1288 1394 1545 1032 1289 695 803
1440 1421 1329 1407 718 1457 1449 1455 2051 1677
1119 1020 1400 1442 1593 1962 1263 1788 1501 1668
1352 1340 1459 1823 1451 1138 1592 982 1981 1091

3. Los siguientes datos representan la duración de la vida en meses de 30 bombas de combustible similares.

24 36 4 40 16 5 18 6 30 60
3 72 66 78 3 28 67 72 15 3
18 48 71 22 57 9 54 4 12 72

4. Los siguientes datos representan la duración de la vida, en segundos, de 50 moscas sometidas a un nuevo atomizador en un experimento de laboratorio controlado.

17 20 10 9 23 13 12 19 18 24
12 14 6 9 13 6 7 10 13 7
16 18 8 13 3 32 9 7 10 11
13 7 18 7 10 4 27 19 16 8
7 10 5 14 15 10 9 6 7 15

5. Se aplicó una encuesta donde se les pide indicar el número de amigos o parientes que visitan cuando menos una vez al mes. Los resultados son los siguientes:

3 5 2 3 3 4 1 8 4
2 4 2 5 3 3 3 0 3
5 6 4 3 2 2 6 3 5
4 14 3 5 6 3 4 2 4
9 4 1 4 2 4 3 5 0
4 3 5 7 3 5 6 2 2

6. Una compañía de cambio de aceite tiene varias sucursales en la zona metropolitana. El número de cambios de aceite en la sucursal de la calle Roble en los pasados 20 días son:

66 98 55 62 79 59 51 90 72 56
70 62 66 80 94 79 63 73 71 85

7. El gerente local un negocio de comida rápida esta interesado en el número de veces que un cliente compra en su tienda durante un periodo de dos semanas. Las respuestas de los 51 clientes fueron:

5 3 3 1 4 4 5 6 4 2 6 6 6 7 1 1 14
1 2 4 4 4 5 6 3 5 3 4 5 6 8 4 7 6
5 9 11 3 12 4 7 6 5 15 1 1 10 8 9 2 12

8. El presidente de una agencia de viajes, quiere información sobre las edades de la gente que toma cruceros por el Caribe. Una muestra de 40 clientes que tomaron un crucero el año pasado reveló estas edades:

77 18 63 84 38 54 50 59 54 56
36 26 50 34 44 41 58 58 53 51
62 43 52 53 63 62 62 65 61 52
60 45 66 83 71 63 58 61 71 60

9. Una cadena de tiendas de artículos deportivos al servicio de esquiadores principiantes, planea hacer un estudio de cuanto gasta un esquiador principiante en su primera compra de equipo. Una muestra de recibos de sus cajas registradoras reveló esas compras iniciales.

140 82 265 168 90 114 172 230 142 86 125
235 212 171 149 156 162 118 139 149 132 105
162 126 216 195 127 161 135 172 220 229 129
87 128 126 175 127 149 126 121 118 172 126

10.- Se conduce un estudio de los efectos de fumar sobre los patrones de sueño. La medición que se observa es el tiempo, en minutos, que toma quedar dormido. Se obtienen estos datos:

69 56 22 28 41 28
47 53 48 30 34 13
52 34 60 25 21 37
43 23 13 31 29 38
26 36 30

11. Un banco seleccionó una muestra de 40 cuentas de cheques de estudiantes. Abajo aparecen sus saldos de fin de mes.

404 74 234 149 279 215 123 55 43 321
87 234 68 489 57 185 141 758 72 863
703 125 350 440 37 252 27 521 302 127
968 712 503 498 327 608 358 425 303 203

12.- Una compañía de luz seleccionó una muestra de 20 clientes residenciales. Los siguientes datos son las cuentas que se les facturó el mes pasado:

54 48 58 50 25 47 75 46 60 70
67 68 39 35 56 66 33 62 65 67

13.- Una muestra de suscriptores de una compañía telefónica reveló los siguientes números de llamadas recibidas en la última semana.

52 43 30 38 30 42 12 46 39 37
34 46 32 18 41 5

14. A los solicitantes del puesto de ensamblador de una empresa mueblera se les aplica una prueba. La prueba consiste en tomar el tiempo que tardan en ensamblar cierto mueble.

La siguiente es una distribución de frecuencia los tiempos registrados por una muestra de 42 solicitantes.

Tiempo (minutos) Número de solicitantes
1 - 3 4
4 - 6 8
7 - 9 14
10 - 12 9
13 - 15 5
16 - 18 2

15. La siguiente es una distribución de frecuencia de una muestra de los pagos realizados en un estacionamiento del centro de la ciudad el sábado pasado

Cantidad pagada ($) Número de clientes
5 - 9 2
10 - 14 7
15 - 19 15
20 - 24 28
25 - 29 14
30 - 34 9
35 - 39 3
40 - 44 2

 

   

 



Free web hostingWeb hosting