La varianza es una medida de qué tan disperso es un conjunto de datos. Si la varianza es pequeña, significa que los valores del conjunto están bastante agrupados. Si la varianza es grande, significa que los números están más dispersos. En estadística, este concepto tiene muchos usos. Por ejemplo, si comparas las varianzas de dos conjuntos de datos (por ejemplo, resultados de pacientes femeninos contra resultados de pacientes masculinos) puedes comprobar si una variable produce un efecto perceptible. La varianza también es muy útil para crear modelos estadísticos, ya que una varianza pequeña puede ser un indicio de que estás ajustando demasiado los datos.
Toma nota de la muestra del conjunto de datos. En la mayoría de los casos, los estadísticos solo tienen acceso a una muestra o a un subconjunto de la población que van a analizar. Por ejemplo, en vez de analizar la población "costo de todos los autos de Alemania", un estadístico averiguaría el costo de una muestra aleatoria de unos pocos miles de autos. De este modo podría basarse en esa muestra para obtener una estimación aproximada del costo de los autos en Alemania, aunque es posible que no coincida con el valor exacto.
- Ejemplo: analizando la cantidad de panquecitos que se venden todos los días en una cafetería, tomas una muestra de seis días aleatorios y obtienes los siguientes resultados: 17, 15, 23, 7, 9, 13. Esta es una muestra, no la población, ya que no tienes los datos de todos y cada uno de los días en los cuales ha estado abierta la cafetería.
- Si tienes todos los puntos de datos de una población, continúa con el próximo método.
Anota la fórmula de la varianza de una muestra. La varianza de un conjunto de datos te indica qué tan dispersos están los puntos de datos. Mientras más cerca de cero esté la varianza, más cercanos estarán entre sí los puntos de datos. Cuando vayas a trabajar con muestras de conjuntos de datos, utiliza la siguiente fórmula para calcular la varianza:
- = ∑[( - x̅)]/(n - 1)
- es la varianza. La varianza siempre se mide en unidades elevadas al cuadrado.
- representa un término de tu conjunto de datos.
- ∑, que significa "sumatoria", te indica que debes calcular los siguientes términos para cada valor de y luego sumarlos a todos.
- x̅ es la media de la muestra.
- n es la cantidad de puntos de datos.
Calcula la media de la muestra. El símbolo x̅ o "x barra" se refiere a la media de la muestra.Calcúlala como lo calcularías cualquier media: suma todos los puntos de datos, luego divídela por la cantidad de puntos de datos.
- Por ejemplo: primero suma todos los puntos de datos: 17 + 15 + 23 + 7 + 9 + 13 = 84
A continuación, divide la respuesta por la cantidad de puntos de datos, en este caso, seis: 84 ÷ 6 = 14.
Media de la muestra = x̅ = 14. - Puedes pensar en la media como el "punto central" de los datos. Si los datos se agrupan cerca de la media, entonces la varianza será baja. Si se encuentran esparcidos lejos de la media, la varianza será alta.
Réstale la media a cada punto de datos. Ahora es momento de calcular - x̅, donde es cada número del conjunto de datos. Cada respuesta te indicará la desviación con respecto de la media o, en lenguaje coloquial, qué tan lejos de la media está cada número.
- Ejemplo:
- x̅ = 17 - 14 = 3
- x̅ = 15 - 14 = 1
- x̅ = 23 - 14 = 9
- x̅ = 7 - 14 = -7
- x̅ = 9 - 14 = -5
- x̅ = 13 - 14 = -1 - Es fácil revisar tu trabajo, ya que la suma de las respuestas debe ser igual a cero. Esto se debe justamente a la definición de la media, ya que las respuestas negativas (distancia de los números pequeños respecto de la media) cancelan exactamente las respuestas positivas (distancia de los números más grandes respecto de la media).
Eleva cada resultado al cuadrado. Tal como se explicó más arriba, la lista actual de desviaciones ( - x̅) suman cero. Esto quiere decir que la "desviación promedio" siempre será igual a cero. Por lo tanto, esto no te dice demasiado acerca de qué tan dispersos están los datos. Para resolver este problema, debes elevar al cuadrado cada desviación. Al hacerlo, todos los números se convertirán en positivos, por lo tanto, los valores positivos y negativos dejarán de cancelarse y sumar cero.
- Ejemplo:
( - x̅)
- x̅)
92 = 81
(-7)2 = 49
(-5)2 = 25
(-1)2 = 1 - Ahora tienes el valor ( - x̅) para cada punto de datos de tu muestra.
Calcula la suma de los valores al cuadrado. Ahora es momento de calcular el numerador total de la fórmula ∑[( - x̅)]. La letra sigma mayúscula, ∑, te indica que debes sumar el valor del siguiente término para cada valor de . Ya calculaste ( - x̅) para cada valor de en la muestra. Así que todo lo que tienes que hacer ahora, es sumar los resultados.
- Ejemplo: 9 + 1 + 81 + 49 + 25 + 1 = 166.
Divide por , donde es la cantidad de puntos de datos. Hace mucho tiempo, los estadísticos dividían la varianza de la muestra por . Esto te da el valor promedio de la desviación al cuadrado, que coincide perfectamente con la varianza de la muestra. Pero recuerda que la muestra es solo una estimación de una población más grande. Si tomas otra muestra aleatoria y haces el mismo cálculo, obtendrás un resultado diferente. Por este motivo, al dividir por en vez de por obtendrás una mejor estimación de la varianza de una población más grande y eso es justamente lo que estás buscando. Esta corrección es tan común que se ha convertido en la definición aceptada de la varianza de una muestra.
- Ejemplo: en la muestra hay seis puntos de datos, por lo tanto:
Varianza de la muestra = 33,2
Aprende a distinguir varianza de desviación estándar. Ten en cuenta que, al haber un exponente en la fórmula, la varianza se mide en unidades al cuadrado de los datos originales. Esto puede hacer que no sea tan sencillo entenderlo en forma intuitiva. En su lugar, a menudo se usa la desviación estándar. De todas formas, tu esfuerzo no fue en vano, ya que la desviación estándar no es otra cosa que la raíz cuadrada de la varianza. Es por eso que la varianza de una muestra se expresa como y la desviación estándar de una muestra como .
- Por ejemplo, la desviación estándar de la muestra anterior es = s = √33,2 = 5,76.