Medidas de Dispersión

Unidad de Apoyo para el Aprendizaje

Iniciar

Introducción


Para que la información estadística sea relevante, útil y confiable, es necesario prestar atención a todas las etapas del proceso de manejo de datos. Desde el punto de vista de la estadística descriptiva, es importante, entonces, atender los diferentes tipos de escalas con que pueden medirse los atributos o variables que nos interesan de un conjunto de observaciones, y la forma de agrupar los datos correctamente para, a partir de lo anterior, aplicar los métodos estadísticos de representación gráfica, así como determinar las medidas de localización y dispersión que nos permitan profundizar en el interior de la estructura de los datos.

La descripción de la información, desde el punto de vista de la estadística, constituye la parte fundamental del proceso de análisis de un conjunto de datos.



Tableta digital e impresiones en papel con diversos gráficos, tanto de barra como de pastel.


Pexels. (2016). [Datos estadísticos] [fotografía]. Tomada de https://pixabay.com/es/an%C3%A1lisis-analytics-negocio-gr%C3%A1fico-1841158/

El estudio de este tema te permitirá:

Calcular las medidas de dispersión, rango o recorrido, varianza, desviación estándar y coeficiente de variación, de datos representados en una distribución, utilizando las definiciones y fórmulas matemáticas establecidas para el análisis estadístico.

Medidas de dispersión


Saber cuál es el dato central de una distribución es importante, pero también lo es saber qué tan concentrada o extendida está nuestra información. Es por ello que dentro de la estadística existen medidas que nos permiten cuantificar la dispersión de los datos.



Dos gráficos que presentan una campana de Gauss, en uno los datos están cercanos a la media por ende con baja dispersión, en el otro están muy alejados de la media estos son datos con alta dispersión



Datos y dispersión.



Estas medidas de dispersión son cuatro: rango o recorrido, varianza, desviación estándar y coeficiente de variación. A continuación definiremos cada una de ellas.



Rango o recorrido


Es la diferencia entre el dato mayor y el dato menor. El rango se expresa frecuentemente con la fórmula siguiente:

R = XM - Xm


En esta fórmula, R representa al rango, XM al dato mayor y Xm al dato menor.

Ejemplo. Competencia de ingresos



Tenemos dos tiendas, A y B, con los ingresos diarios medios.

Tienda A. $10 000, $10 500, $11 000, $9000, $9500
Tienda B. $10 000, $5000, $15 000, $19 000, $1000

Calcula el rango para cada una de las tiendas.

Al aplicar la definición anterior, tenemos que sus rangos son:

Tienda A. 11 000 - 9000 = 2000
Tienda B. 19 000 - 1000 = 18 000




El rango es una medida de dispersión muy fácil de obtener, pero es un tanto escueta, pues solamente toma en cuenta los datos extremos y no considera aquellos que están en medio. Para tomar en cuenta todos los datos, se propusieron las medidas de dispersión conocidas como varianza y desviación estándar.

Varianza y desviación estándar


La varianza es la medida de dispersión que corresponde al promedio aritmético de las desviaciones cuadráticas de cada valor de la variable, respecto a la media de los datos.

La expresión algebraica que corresponde a este concepto es la siguiente:

σ2=1N(xi-μ)2/N

Donde

σ2es la varianza de datos

indica una sumatoria

xi variable o dato

μ media de datos

N número de datos en una población.


La varianza es una medida muy importante y tiene interesantes aplicaciones teóricas. Sin embargo, es difícil de comprender de manera intuitiva, entre otras cuestiones, porque al elevar las diferencias entre el dato y la media al cuadrado, las unidades de medida también se elevan al cuadrado y no es nada fácil captar lo que significan. Por ello, se determinó obtener la raíz cuadrada de la varianza. Así pues, las unidades vuelven a expresarse de la manera original y su sentido es menos difícil de captar.

La raíz cuadrada de la varianza recibe el nombre de desviación estándar o desviación típica. La fórmula para la desviación estándar es:


σ=1N(xi-μ)2/N


El alumno podrá observar que la sigma ya no está elevada al cuadrado, lo cual resulta lógico, pues si la varianza es sigma al cuadrado, la raíz cuadrada de la misma es simplemente sigma. Resulta importante precisar que ésta es la fórmula de la desviación estándar para una población.

En estadística inferencial es relevante distinguir los símbolos para una muestra y para una población. La desviación estándar para una muestra tiene una fórmula cuyo denominador es (n-1) siendo n el tamaño de la muestra.

El estudiante deberá notar que al total de la población se le denota con N mayúscula; en tanto que al total de datos de la muestra se le denota con n minúscula.

Competencia de ingresos II


Supongamos las ventas de las siguientes dos tiendas:


Tienda C. $5000, $10 000, $10 000, $10 000, $15 000
Tienda D. $5000, $6000, $10 000, $14 000, $15 000

Ambas tiendas tienen una media de $10 000 y un rango de $10 000, como fácilmente el alumno puede comprobar; sin embargo, podemos darnos cuenta de que en la tienda D la información está un poco más dispersa que en la tienda C, pues en esta última, si exceptuamos los valores extremos, todos los demás son 10 000; en cambio, en la tienda D existe una mayor diversidad de valores.


Supongamos que deseamos saber qué tan alejado está cada uno de los datos de la media. Para ello podemos sacar la diferencia entre cada uno de los datos y esa media para, posteriormente, promediar todas esas diferencias y ver, en promedio, qué tan alejado está cada dato de la media ya citada. En la siguiente tabla se realiza ese trabajo.

Tienda C Tienda D
Datos Cada dato menos la media Datos Cada dato menos la media
5000 5000 - 10 000 = -5000 5000 5000 - 10 000 = -5000
10 000 10 000 - 10 000 = 0 6000 6000 - 10 000 = -4000
10 000 10 000 - 10 000 = 0 10 000 10 000 - 10 000 = 0
10 000 10 000 - 10 000 = 0 14 000 14 000 - 10 000 = 4000
15 000 15 000 - 10 000 = 5000 15 000 15 000 - 10 000 = 5000
Suma = 0 Suma = 0
Tabla de desviaciones de datos

Como se puede apreciar, la suma de las diferencias entre la media y cada dato tiene como resultado el valor 0, por lo que, entonces, se elevan las diferencias al cuadrado para que los resultados siempre sean positivos. A continuación, se muestra este trabajo y la suma correspondiente.

Tienda C Tienda D
Datos Cada dato menos la media Cuadrado de lo anterior Datos Cada dato menos la media Cuadrado de lo anterior
5000 5000 25 000 000 5000 -5000 25 000 000
10 000 0 0 6 000 -4000 16 000 000
10 000 0 0 10 000 0 0
10 000 0 0 14 000 4 000 16 000 000
15 000 5000 25 000 000 15 000 5 000 25 000 000
SUMA 0 50 000 000 SUMA 0 82 000 000
Tabla de desviaciones cuadráticas

En este caso, la suma de las diferencias entre cada dato y la media, elevadas al cuadrado, nos da un valor diferente de 0 con el que podemos trabajar. A este último dato (el de la suma), dividido entre el número total de datos, lo conocemos como varianza (o variancia, dependiendo de la fuente que se consulte).

De acuerdo con lo anterior, tenemos que la varianza de los datos de la tienda C es igual a 50 000 000/5, es decir 10 000 000. Siguiendo el mismo procedimiento, podemos obtener la varianza de la tienda D, que es igual a 82 000 000/5, es decir, 16 500 000.

Es en este punto cuando nos podemos percatar que la varianza de la tienda D es mayor que la de la tienda C, por lo que la información de la primera de ellas (D) está más dispersa que la información de la segunda (C).

En el caso de nuestras tiendas, las desviaciones estándar son para la tienda C, $3162.28; en tanto para la tienda D, $4062.02.

NOTA: Recuerda que la desviación estándar es la raíz cuadrada de la varianza. La varianza se obtiene al realizar la sumatoria de todas aquellas diferencias resultantes del cálculo de cada uno de los valores de la muestra menos la media, y todo dividido entre el número total de la muestra.

El coeficiente de variación


Dos poblaciones pueden tener la misma desviación estándar y, sin embargo, podemos percatarnos intuitivamente que la dispersión no es la misma para efectos de una toma de decisiones. El siguiente ejemplo aclara estos conceptos.

Ejemplo: Comerciando



Un comerciante de maíz vende su producto de dos maneras distintas:

a) En costales de 50 Kg.
b) A granel, en sus propios camiones repartidores que cargan 5 toneladas (5000) Kg.

Para manejar el ejemplo de manera sencilla, supongamos que en un día determinado solamente vendió tres costales y que además salieron tres camiones cargados. Para verificar el trabajo de los operarios, se pesaron tanto unos como otros en presencia de un supervisor.

Sus pesos, la media de los mismos y sus desviaciones estándar aparecen en la siguiente tabla.

Tabla de datos

Peso de los costales Peso de los camiones
40 Kg 4990 Kg
50 Kg 5000 Kg
60 Kg 5010 Kg


Podemos percatarnos de que las variaciones en el peso de los camiones son muy razonables, dado el peso que transportan. En cambio, las variaciones en el peso de los costales son muy grandes, en relación con lo que debería ser.

  • Media de los costales 50 Kg
  • Media de los camiones 5000 Kg
  • Desviación estándar de los costales 8.165 Kg
  • Desviación estándar de los camiones 8.165 Kg
  • Para formalizar esta relación entre la variación y lo que debe ser, se trabaja el coeficiente de variación o dispersión relativa, que no es otra cosa que la desviación estándar entre la media y todo ello por cien. En fórmula lo expresamos de la siguiente manera.

    C.V.=(σ/μ)100
    Donde

    C. V. coeficiente de variación

    σ desviación estándar

    μ media de la población

    En el caso de los costales tendríamos que:

    C. V. = (8.165/50)100 = 16.33

    Lo que nos indica que la desviación estándar del peso de los costales es del 16.33 % del peso medio (una desviación significativamente grande).

    Por otra parte, en el caso de los camiones, el coeficiente de variación resulta:

    C. V. = (8.165/5000)100 = 0.1633

    Lo que nos indica que la desviación estándar del peso de los camiones es de menos del uno por ciento del peso medio (una desviación realmente razonable).

    Los operarios que cargan los camiones pueden ser felicitados por el cuidado que ponen en su trabajo; en cambio, podemos ver fácilmente que los trabajadores que llenan los costales tienen un problema serio, a pesar de que la variación (desviación estándar) es la misma en ambos casos.

    Actividad. Las medidas de dispersión y su entorno

    Una vez que se han revisado las medidas de dispersión, será preciso que ejercites tu habilidad para aplicar las fórmulas que se utilizan en cada uno de los casos. Recuerda que las medidas de dispersión se ocupan en todos los campos del conocimiento.

    Puedes recurrir al contenido del tema cuando requieras verificar una fórmula o concepto.

    Revisa las tablas que se presentan y realiza el cálculo correspondiente para seleccionar el valor correcto en cada medida de dispersión solicitada.

    Autoevaluación. Analizo, observo

    Ahora que has revisado distintos casos y has realizado actividades, que han fortalecido tus conocimientos, te invito a que realices el siguiente reto y pongas a prueba lo que has aprendido.

    Como has visto, la toma de decisiones gubernamentales se ve influenciada por los datos recabados y su posterior análisis, por tal motivo, te presentamos dos ejemplos en los cuales el trabajo de análisis es fundamental para que se tomen las decisiones adecuadas.

    Recuerda que puedes revisar el contenido del tema en cualquier momento, ya sea para afianzar conceptos o formulas necesarias para realizar los cálculos respectivos.

    Lee con atención el enunciado, revisa detenidamente los datos proporcionados y calcula la medida de dispersión que se solicita para completar de forma correcta el párrafo.

    Fuentes de información

    Básicas

    Bibliografía

    Camargo, A., García, J., Minjares, M., Rodríguez, A. y Serrano, R. (2010). Medidas de Dispersión. En Estadística I. Licenciatura en Contaduría (pp. 93-96, 135-143, 165-170) [CD-ROM]. México: UNAM.

    Documentos electrónicos

    Portal de Estadística Universitaria. (2017). Sección: Agenda Estadística Universitaria. Consultado el 11 de octubre de 2017 de http://www.estadistica.unam.mx/series_inst/index.php

    Complementarias

    Bibliografía

    Anderson, D., Sweeney, D. y Williams, T. (2005). Estadística para administración y economía (8.ª ed.). México: International Thomson Editores.

    Lind, D., Marchal, William, G. y Wathen, S. (2008). Estadística aplicada a los negocios y la economía (13.ª ed.). México: McGraw-Hill Interamericana.

    Webster, A. (2002). Estadística I: aplicada a los negocios y la economía (2.ª ed.). México: McGraw-Hill.


    Cómo citar