Para que la información estadística sea relevante, útil y confiable, es necesario prestar atención a todas las etapas del proceso de manejo de datos. Desde el punto de vista de la estadística descriptiva, es importante, entonces, atender los diferentes tipos de escalas con que pueden medirse los atributos o variables que nos interesan de un conjunto de observaciones, y la forma de agrupar los datos correctamente para, a partir de lo anterior, aplicar los métodos estadísticos de representación gráfica, así como determinar las medidas de localización y dispersión que nos permitan profundizar en el interior de la estructura de los datos.
La descripción de la información, desde el punto de vista de la estadística, constituye la parte fundamental del proceso de análisis de un conjunto de datos.
Pexels. (2016). [Datos estadísticos] [fotografía]. Tomada de https://pixabay.com/es/an%C3%A1lisis-analytics-negocio-gr%C3%A1fico-1841158/
Saber cuál es el dato central de una distribución es importante, pero también lo es saber qué tan concentrada o extendida está nuestra información. Es por ello que dentro de la estadística existen medidas que nos permiten cuantificar la dispersión de los datos.
Datos y dispersión.
Estas medidas de dispersión son cuatro: rango o recorrido, varianza, desviación estándar y coeficiente de variación. A continuación definiremos cada una de ellas.
Es la diferencia entre el dato mayor y el dato menor. El rango se expresa frecuentemente con la fórmula siguiente:
R = XM - Xm |
En esta fórmula, R representa al rango, XM al dato mayor y Xm al dato menor.
Tenemos dos tiendas, A y B, con los ingresos diarios medios.
Tienda A. $10 000, $10 500, $11 000, $9000, $9500 |
Tienda B. $10 000, $5000, $15 000, $19 000, $1000 |
Calcula el rango para cada una de las tiendas.
Al aplicar la definición anterior, tenemos que sus rangos son:
Tienda A. 11 000 - 9000 = 2000 |
Tienda B. 19 000 - 1000 = 18 000 |
El rango es una medida de dispersión muy fácil de obtener, pero es un tanto escueta, pues solamente toma en cuenta los datos extremos y no considera aquellos que están en medio. Para tomar en cuenta todos los datos, se propusieron las medidas de dispersión conocidas como varianza y desviación estándar.
La varianza es la medida de dispersión que corresponde al promedio aritmético de las desviaciones cuadráticas de cada valor de la variable, respecto a la media de los datos.
La expresión algebraica que corresponde a este concepto es la siguiente:
Donde es la varianza de datos indica una sumatoria variable o dato media de datos número de datos en una población. |
La varianza es una medida muy importante y tiene interesantes aplicaciones teóricas. Sin embargo, es difícil de comprender de manera intuitiva, entre otras cuestiones, porque al elevar las diferencias entre el dato y la media al cuadrado, las unidades de medida también se elevan al cuadrado y no es nada fácil captar lo que significan. Por ello, se determinó obtener la raíz cuadrada de la varianza. Así pues, las unidades vuelven a expresarse de la manera original y su sentido es menos difícil de captar.
La raíz cuadrada de la varianza recibe el nombre de desviación estándar o desviación típica. La fórmula para la desviación estándar es:
El alumno podrá observar que la sigma ya no está elevada al cuadrado, lo cual resulta lógico, pues si la varianza es sigma al cuadrado, la raíz cuadrada de la misma es simplemente sigma. Resulta importante precisar que ésta es la fórmula de la desviación estándar para una población.
En estadística inferencial es relevante distinguir los símbolos para una muestra y para una población. La desviación estándar para una muestra tiene una fórmula cuyo denominador es (n-1) siendo n el tamaño de la muestra.
El estudiante deberá notar que al total de la población se le denota con N mayúscula; en tanto que al total de datos de la muestra se le denota con n minúscula.
Supongamos las ventas de las siguientes dos tiendas:
Tienda C. $5000, $10 000, $10 000, $10 000, $15 000 |
Tienda D. $5000, $6000, $10 000, $14 000, $15 000 |
Ambas tiendas tienen una media de $10 000 y un rango de $10 000, como fácilmente el alumno puede comprobar; sin embargo, podemos darnos cuenta de que en la tienda D la información está un poco más dispersa que en la tienda C, pues en esta última, si exceptuamos los valores extremos, todos los demás son 10 000; en cambio, en la tienda D existe una mayor diversidad de valores.
Supongamos que deseamos saber qué tan alejado está cada uno de los datos de la media. Para ello podemos sacar la diferencia entre cada uno de los datos y esa media para, posteriormente, promediar todas esas diferencias y ver, en promedio, qué tan alejado está cada dato de la media ya citada. En la siguiente tabla se realiza ese trabajo.
Tienda C | Tienda D | ||
Datos | Cada dato menos la media | Datos | Cada dato menos la media |
5000 | 5000 - 10 000 = -5000 | 5000 | 5000 - 10 000 = -5000 |
10 000 | 10 000 - 10 000 = 0 | 6000 | 6000 - 10 000 = -4000 |
10 000 | 10 000 - 10 000 = 0 | 10 000 | 10 000 - 10 000 = 0 |
10 000 | 10 000 - 10 000 = 0 | 14 000 | 14 000 - 10 000 = 4000 |
15 000 | 15 000 - 10 000 = 5000 | 15 000 | 15 000 - 10 000 = 5000 |
Suma = 0 | Suma = 0 |
Como se puede apreciar, la suma de las diferencias entre la media y cada dato tiene como resultado el valor 0, por lo que, entonces, se elevan las diferencias al cuadrado para que los resultados siempre sean positivos. A continuación, se muestra este trabajo y la suma correspondiente.
Tienda C | Tienda D | ||||
Datos | Cada dato menos la media | Cuadrado de lo anterior | Datos | Cada dato menos la media | Cuadrado de lo anterior |
5000 | 5000 | 25 000 000 | 5000 | -5000 | 25 000 000 |
10 000 | 0 | 0 | 6 000 | -4000 | 16 000 000 |
10 000 | 0 | 0 | 10 000 | 0 | 0 |
10 000 | 0 | 0 | 14 000 | 4 000 | 16 000 000 |
15 000 | 5000 | 25 000 000 | 15 000 | 5 000 | 25 000 000 |
SUMA | 0 | 50 000 000 | SUMA | 0 | 82 000 000 |
En este caso, la suma de las diferencias entre cada dato y la media, elevadas al cuadrado, nos da un valor diferente de 0 con el que podemos trabajar. A este último dato (el de la suma), dividido entre el número total de datos, lo conocemos como varianza (o variancia, dependiendo de la fuente que se consulte).
De acuerdo con lo anterior, tenemos que la varianza de los datos de la tienda C es igual a 50 000 000/5, es decir 10 000 000. Siguiendo el mismo procedimiento, podemos obtener la varianza de la tienda D, que es igual a 82 000 000/5, es decir, 16 500 000.
Es en este punto cuando nos podemos percatar que la varianza de la tienda D es mayor que la de la tienda C, por lo que la información de la primera de ellas (D) está más dispersa que la información de la segunda (C).
En el caso de nuestras tiendas, las desviaciones estándar son para la tienda C, $3162.28; en tanto para la tienda D, $4062.02.
NOTA: Recuerda que la desviación estándar es la raíz cuadrada de la varianza. La varianza se obtiene al realizar la sumatoria de todas aquellas diferencias resultantes del cálculo de cada uno de los valores de la muestra menos la media, y todo dividido entre el número total de la muestra.
Dos poblaciones pueden tener la misma desviación estándar y, sin embargo, podemos percatarnos intuitivamente que la dispersión no es la misma para efectos de una toma de decisiones. El siguiente ejemplo aclara estos conceptos.
Un comerciante de maíz vende su producto de dos maneras distintas:
a) En costales de 50 Kg. |
b) A granel, en sus propios camiones repartidores que cargan 5 toneladas (5000) Kg. |
Para manejar el ejemplo de manera sencilla, supongamos que en un día determinado solamente vendió tres costales y que además salieron tres camiones cargados. Para verificar el trabajo de los operarios, se pesaron tanto unos como otros en presencia de un supervisor.
Sus pesos, la media de los mismos y sus desviaciones estándar aparecen en la siguiente tabla.
Tabla de datos
Peso de los costales | Peso de los camiones |
40 Kg | 4990 Kg |
50 Kg | 5000 Kg |
60 Kg | 5010 Kg |
Podemos percatarnos de que las variaciones en el peso de los camiones son muy razonables, dado el peso que transportan. En cambio, las variaciones en el peso de los costales son muy grandes, en relación con lo que debería ser.
|
|
|
|
Para formalizar esta relación entre la variación y lo que debe ser, se trabaja el coeficiente de variación o dispersión relativa, que no es otra cosa que la desviación estándar entre la media y todo ello por cien. En fórmula lo expresamos de la siguiente manera.
Donde C. V. coeficiente de variación desviación estándar media de la población |
En el caso de los costales tendríamos que:
C. V. = (8.165/50)100 = 16.33 |
Lo que nos indica que la desviación estándar del peso de los costales es del 16.33 % del peso medio (una desviación significativamente grande).
Por otra parte, en el caso de los camiones, el coeficiente de variación resulta:
C. V. = (8.165/5000)100 = 0.1633 |
Lo que nos indica que la desviación estándar del peso de los camiones es de menos del uno por ciento del peso medio (una desviación realmente razonable).
Los operarios que cargan los camiones pueden ser felicitados por el cuidado que ponen en su trabajo; en cambio, podemos ver fácilmente que los trabajadores que llenan los costales tienen un problema serio, a pesar de que la variación (desviación estándar) es la misma en ambos casos.
Actividad. Las medidas de dispersión y su entorno
Una vez que se han revisado las medidas de dispersión, será preciso que ejercites tu habilidad para aplicar las fórmulas que se utilizan en cada uno de los casos. Recuerda que las medidas de dispersión se ocupan en todos los campos del conocimiento.
Puedes recurrir al contenido del tema cuando requieras verificar una fórmula o concepto.
Revisa las tablas que se presentan y realiza el cálculo correspondiente para seleccionar el valor correcto en cada medida de dispersión solicitada.
Autoevaluación. Analizo, observo
Ahora que has revisado distintos casos y has realizado actividades, que han fortalecido tus conocimientos, te invito a que realices el siguiente reto y pongas a prueba lo que has aprendido.
Como has visto, la toma de decisiones gubernamentales se ve influenciada por los datos recabados y su posterior análisis, por tal motivo, te presentamos dos ejemplos en los cuales el trabajo de análisis es fundamental para que se tomen las decisiones adecuadas.
Recuerda que puedes revisar el contenido del tema en cualquier momento, ya sea para afianzar conceptos o formulas necesarias para realizar los cálculos respectivos.
Lee con atención el enunciado, revisa detenidamente los datos proporcionados y calcula la medida de dispersión que se solicita para completar de forma correcta el párrafo.