4  Medidas de dispersão

Iniciamos este capítulo, motivados por três conjuntos de dados que resultaram em mesma média aritmética propositalmente. Vejamos o Código R 4.1 a seguir. Esse código apresenta uma simulação de três grupos com 10 observações cada um. Os grupos formados foram gA, gB e gC, com suas respectivas médias \(\bar{X}_{\textrm{\textsf gA}} = 9,018686~unid.\) , \(\bar{X}_{\textrm{\textsf gB}} = 9,018686~unid.\) e \(\bar{X}_{\textrm{\textsf gC}} = 9,018686~unid.\) , respectivamente. Dessa forma, poderíamos concluir que os grupos de dados são iguais? A resposta é não. Isso significa, que somente a medida de posição não satisfaz quanto a caracterização dos dados.

Código R 4.1: Variabilidade dos dados.
# Dados dos grupos gerados
set.seed(10); gA <- rnorm(10, mean = 10, sd = 2)
set.seed(10); gB <- rnorm(9, mean = 10, sd = 4)
gC <- c(4.706090, 4.772017, 6.404994, 7.338766, 
        7.817944, 8.372813, 8.894485, 10.112477, 
        11.767271, 20.000000)

# Media do grupo gA
media.gA <- mean(gA) # 9.018686

# gerando gB[10] e media de gB
gB[10] <- length(gA) * media.gA - sum(gB)
media.gB <- mean(gB) # 9.018686

# gerando gC[10] e media de gC
media.gC <- mean(gC) # 9.018686

# Apresentando os dados
cbind(gA,gB,gC)
             gA        gB        gC
 [1,] 10.037492 10.074985  4.706090
 [2,]  9.631495  9.262990  4.772017
 [3,]  7.257339  4.514678  6.404994
 [4,]  8.801665  7.603329  7.338766
 [5,] 10.589090 11.178181  7.817944
 [6,] 10.779589 11.559177  8.372813
 [7,]  7.583848  5.167695  8.894485
 [8,]  9.272648  8.545296 10.112477
 [9,]  6.746655  3.493309 11.767271
[10,]  9.487043 18.787223 20.000000

Os dados para os três grupos são apresentados na Tabela 4.1. Ao observarmos com mais detalhes os valores observados nos grupos, percebemos que eles não são iguais, de fato. Logo, poderíamos erroneamente afirmar que aqueles grupos eram semelhantes, simplemente olhando para as suas médias. O que ocorre é uma variabilidade nos dados diferenciada em cada grupo, e que a medida de dispersão não consegue caracterizá-la. Dizemos que variabilidade é a dispersão com que ocorre nos dados, e as medidas responsáveis em expressar essa variabilidade, chamamos na estatística descritiva de medidas de dispersão. Geralmente, usamos a representação dessa dispersão em torno de um valor central nos dados, que em nosso caso, será a média aritmética, devido a algumas propriedades matemáticas e estatísticas que essa medida tem, e que será vista ao longo de todo o livro.

A seguir, mostraremos algumas medidas de dispersão que auxiliarão na caracterização dos dados, bem como no auxílio a fundamentação de temas tão importantes como a inferência estatística e teoria de decisão, abordado em capítulos posteriores.

Tabela 4.1: Dados dos três grupos simulados pelo Código R 4.1.
gA gB gC
\(6,746655\) \(3,493309\) \(4,706090\)
\(7,257339\) \(4,514678\) \(4,772017\)
\(7,583843\) \(5,167695\) \(6,404994\)
\(8,801665\) \(7,603329\) \(7,338766\)
\(9,272648\) \(8,545295\) \(7,817944\)
\(9,487043\) \(9,262990\) \(8,372813\)
\(9,631495\) \(10,074985\) \(8,894485\)
\(10,037492\) \(11,178181\) \(10,112477\)
\(10,589090\) \(11,559177\) \(11,767271\)
\(10,779589\) \(18,787223\) \(20,000000\)
\(\bar{X}_{\textrm{\textsf gA}} = 9,018686\) \(\bar{X}_{\textrm{\textsf gB}} = 9,018686\) \(\bar{X}_{\textrm{\textsf gC}} = 9,018686\)

4.1 Amplitude total ou Amplitude

A primeira medida de dispersão que definiremos é a amplitude ou amplitude total, denotada por \(A\) ou \(A_t\). Iremos apresentar, três definições sobre a amplitude baseadas nos valores observados da população, da amostra, e em dados agrupados sem e com intervalo de classe. Vejamos o primeiro caso, pensando em uma população, apresentada na Definição 4.1.

Definição 4.1: Amplitude em uma população
Seja uma população \(X_1\), \(X_2\), \(\ldots\), \(X_N\), de tamanho \(N\), e em ordem crescente de magnitude temos \(X_{(1)} = \min\limits_{i}(X_i)\), \(X_{(2)}\), \(\ldots\), \(X_{(N)} = \max\limits_{i}(X_i)\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(N\). Então a amplitude de uma população, denotada por \(A_p\), é definida por: \[ \begin{align} A_p & = X_{(N)} - X_{(1)}. \end{align} \tag{4.1}\]

Se desejarmos representar essa notação em termos de valor observado, temos \(a_t = x_{(N)} - x_{(1)}\). Já usamos uma referência sobre a amplitude total ou amplitude, expressão (2.11), quando agrupamos os dados em intervalo de classes, para o caso das variáveis quantitativas contínuas. Vejamos o Exemplo 4.1 sobre os dados da taxa de desmatamento na Amazônia legal, compreendido entre 1988 a 07/12/2020.

Exemplo 4.1: Desmatamento da Amazônia Legal
Já mencionamos anteriormente, na Tabela 1.2, os dados de desmatamento da Amazônia legal. Se considerarmos que os elementos da população sejam os estados, portanto, temos as informações de todos os elementos, e assim, estamos diante de dados populacionais. Vamos assim, calcular a amplitude para a variável desmatamento acumulado, em \(km^2\), de acordo com a expressão (2.11), isto é, \[\begin{align*} A & = 157.667,00 - 1.696,00 = 155971~km^2. \end{align*}\] Isso representa, uma variação de \(155971~km^2\). Observe que essa medida está na mesma escala da variável, e que se houve um outro conjunto de dados, em mesma unidade, poderíamos comparar qual a que apresentou maior dispersão.

Podemos representar a aplitude em termos amostras, como será apresentado na Definição 4.2, a seguir.

Definição 4.2: Amplitude em uma amostra
Seja uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), de tamanho \(n\), e em ordem crescente de magnitude temos \(X_{(1)} = \min\limits_{i}(X_i)\), \(X_{(2)}\), \(\ldots\), \(X_{(n)} = \max\limits_{i}(X_i)\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\). Então a amplitude de uma população, denotada por \(A\), é definida por: \[ \begin{align}\label{} A & = X_{(n)} - X_{(1)}. \end{align} \tag{4.2}\]

O que vai diferenciar a representação nas expressões (4.1) e (4.2), e o número de elementos, isto é, o tamanho populacional representado por “\(N\)”, e o tamanho amostral, representado por “\(n\)”. Porém, percebemos que a realização do cálculo é a mesma. Da mesma forma que a representação populacional, podemos representar a amplitude em uma amostra, em termos de valor observado como \(a = x_{(n)} - x_{(1)}\). Vejamos o Exemplo 4.2, a seguir.

Exemplo 4.2
Retornando aos dados amostrais simulados na Tabela 4.1, calculamos as amplitudes,

Grupo Amplitude
gA \(A = 10,77959 - 6,746655 = 4,032934~und.\)
gB \(A = 18,787223 - 3,493309 = 15,29391~und.\)
gC \(A = 20,000000 - 3,493309 = 15,29391~und.\)

Por esse resultado, podemos observar os grupos gB e gC que suas amplitudes foram iguais. Será que podemos, então afirmar que esses dois grupos são iguais? Quando observamos os dados, percebemos que os valores não são iguais. Isso ocorre por uma limitação nessa medida de dispersão. Vamos deixar para explorar essa situação mais a frente.

Para a amplitude em termos de dados agrupados, temos a situação em que as variáveis podem ser discretas ou contínuas. No caso, das variáveis quantitativas contínuas, os grupos são classes, e os valores passam a ser representados pelos seus pontos médios de cada classe. Assim, apresentamos na Definição 4.3, a amplitude para dados agrupados com e sem intervalo de classe.

Definição 4.3: Amplitude em dados agrupados
Seja uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), de tamanho \(n\), agrupados em \(k\) grupos com variáveis \(X_i\) e \(F_i\) frequências, ou \(k\) classes com pontos médios \(\tilde{X}_i\) e \(F_i\) frequências, para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(k\) e \(\sum_{i = 1}^{k}F_i = n\), então a amplitude de uma amostra, denotada por \(A\), é definida por: \[ \begin{align} A & = \left\{\begin{array}{ll} X_{(k)} - X_{(1)}, & \textrm{Agrupados sem intervalo de classe}, \\ \tilde{X}_{(k)} - \tilde{X}_{(1)}, & \textrm{Agrupados com intervalo de classe},\\ \end{array}\right. \end{align} \tag{4.3}\] em que \(X_{(k)} = \max\limits_{i}(X_i)\), \(X_{(1)} = \min\limits_{i}(X_i)\), \(\tilde{X}_{(k)} = \max\limits_{i}(\tilde{X}_{i})\), \(\tilde{X}_{(1)} = \min\limits_{i}(\tilde{X}_{i})\), sendo \(\tilde{X}_{i}\) o ponto médio das classes.

Podemos representar a Definição 4.3 em termos populacionais, substituindo o tamanho \(n\) por \(N\), como também representar a expressão em termos de valor observado, como mencionado na definições anteriores. Vejamos o Exemplo 4.3, a seguir.

Exemplo 4.3
Retornando aos dados da Tabela 2.3, podemos calcular a amplitude do número de erros encontrados em 20 conjunto de caracteres, usando a expressão (4.3), da seguinte forma: \[\begin{align*} A & = 4 - 1 = 3~\textrm{erros}. \end{align*}\] Para os dados agrupados com intervalo de classe, apresentados no Exemplo 2.1, podemos calcular a amplitude da temperatura do anel de vedação de cada teste de acionamento do motor do foguete Challenger, da seguinte forma: \[\begin{align*} A & = 84 - 31 = 53~\textrm{ºF}. \end{align*}\] No primeiro caso, usamos as próprias observações para o cálculo da amplitude. No segundo caso, usamos os pontos médios.

Podemos ainda apresentar algumas características sobre a amplitude, dos quais temos:

  • o resultado da amplitude é dado na mesma unidade da variável em estudo;
  • uma medida de dispersão facilmente calculada;
  • limitada apenas as variáveis quantitativas;
  • essa medida é muito utilizada em comparações múltiplas, cartas de controle em estatística de qualidade, dentre outras áreas;
  • a amplitude pode ser utilizada como medida de dispersão para comparar a variabilidade de dados de dois ou mais grupos diferentes;
  • a amplitude é sensível a dados discrepantes1;
  • a amplitude é limitada por levar em consideração apenas os valores extremos, e nada sobre as demais observações. Nesse caso, podem ocorrer situações como os apresentados no Exemplo 4.2, em que poderíamos erroneamente concluir que os grupos de dados gB e gC são iguais, uma vez que apresentam amplitude e média aritmética iguais;
  • segundo Ferreira (2009, p. 36), a amplitude amostral, expressão (4.2), substima a amplitude populacional, expressão (4.1), uma vez que é pouco provável que uma amostra contenha os valores mínimo e máximo da população, portanto, a amplitude amostral é um estimador2 viesado3 e ineficiente.

Complementando as características da amplitude, apresentamos algumas propriedades pelo Teorema 4.1 a seguir, do qual iremos usar a Definição 4.2 como base, e as demais seguem de forma similar.

Teorema 4.1: Propriedades da Amplitude

Baseado na Definição 4.2, e considerando \(c\) uma constante, então:

  • Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), a amplitude é dada por \(A_X = X_{(n)} - X_{(1)}\), então para uma transformação de \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), a nova amplitude não se altera, isto é, \(A_Y = A_X\).
  • Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), a amplitude é dada por \(A_X = X_{(n)} - X_{(1)}\), então para uma transformação de \(Y_i = X_i \times c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), a nova amplitude é dada por \(A_Y = A_X \times c\). Esse resultado vale também para a transformação \(Y_i = X_i / m\), sendo \(m\) também uma constante. Basta usar \(c = 1 / m\) e o resultado é o mesmo.
Prova
  • Considerando uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), e \(c\) uma constante, e que \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então a amplitude de \(Y_i\) é dado por: \[\begin{align*} A_Y & = Y_{(n)} - Y_{(1)}\\ & = (X_{(n)} \pm c) - (X_{(1)} \pm c)\\ & = X_{(n)} - X_{(1)}\\ & = A_X. \end{align*}\]
  • Considerando uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), e \(c\) uma constante, e que \(Y_i = X_i \times c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então a amplitude de \(Y_i\) é dado por: \[\begin{align*} A_Y & = Y_{(n)} - Y_{(1)}\\ & = (X_{(n)} \times c) - (X_{(1)} \times c)\\ & = (X_{(n)} - X_{(1)}) \times c\\ & = A_X \times c. \end{align*}\]

Devido ao problema encontrado no Exemplo 4.2, vamos apresentar algumas outras medidas que levem em consideração as demais variáveis bem como uma referência da posição central dos dados, que em nosso caso será a média aritmética.

4.2 Variância

Diante do Exemplo 4.2, percebemos que complementar a caracterização dos dados com a amplitude, se torna uma medida muito simples. Observamos que os grupos gB e gC apresentam mesmas médias e amplitudes. Assim, poderíamos dizer que os grupos são semelhantes. Mas quando observamos a Tabela 4.1, percebemos que estes são diferentes. Assim, vamos apresentar mais algumas medidas que englobem as demais variáveis e o valor central desses dados em seu cálculo, para apresentarmos medidas mais explicativas para dispersão de dados.

Considerando uma população \(X_1\), \(X_2\), \(\ldots\), \(X_N\) e sua respectiva amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), podemos considerar inicialmente o desvio médio como outra medida de dispersão, dada por: \[ \begin{align} DM_p & = \sum_{i = 1}^{N} \left(X_i - \mu \right), \quad \textrm{(Populacional)} \end{align} \tag{4.4}\] em que \(\mu = \sum_{i = 1}^{N} X_i / N\), e seu respectivo estimador é dado por: \[ \begin{align} DM & = \sum_{i = 1}^{n} \left(X_i - \bar{X} \right), \quad \textrm{(Amostral)} \end{align} \tag{4.5}\] em que \(\bar{X} = \sum_{i = 1}^{n} X_i / n\). Observamos agora, que diferentemente da amplitude, essa medida leva em consideração todos os elementos, seja da amostra ou da população, em relação a uma medida central, como preconizamos inicialmente a definição de uma medida de dispersão no início desse capítulo. O problema é que a expressão (4.5), como mostrado no Teorema 1.1, propriedade (V), sempre resulta em valor nulo para qualquer grupo amostral. De modo similar, a expressão (4.4) também \(\sum_{i = 1}^{N} \left(X_i - \mu \right) = 0\). Isso significa que essa medida não traz ganho algum a descrição dos dados, porque os desvios positivos anulam-se com os desvios negativos no somatório, sendo pois uma questão de problema algébrico. Para isso, podemos contornar essa situação inserindo uma função modular nessa medida anterior, e criar o módulo do desvio, dada por: \[ \begin{align} S_{|\mu|} & = \sum_{i = 1}^{N} \left|X_i - \mu \right|, \quad \textrm{(Populacional)} \end{align} \tag{4.6}\] e \[ \begin{align} S_{|\bar{X}|} & = \sum_{i = 1}^{n} \left|X_i - \bar{X} \right|. \quad \textrm{(Amostral)} \end{align} \tag{4.7}\] Desse modo, sabemos que \(\sum_{i = 1}^{n} \left|X_i - \bar{X} \right| \geq 0\), e agora temos uma medida que represente a dispersão com o qual os dados estão em torno da média. Quanto maior o módulo do desvio, mais disperso é o conjunto de dados. A questão do uso do módulo para resolver o problema da medida do desvio médio, nos gera uma outra dificuldade que poderemos ter mais a frente quando formos estudar inferência estatística. Tem situações que iremos precisar integrar, derivar, etc., dentre outras ferramentas matemáticas, que se torna mais fácil ao invés de usar o módulo, usarmos uma função quadrática na medida. Daí, surge uma outra medida de variabilidade que é a soma de quadrados, dada por: \[ \begin{align} SQ_{p} & = \sum_{i = 1}^{N} \left(X_i - \mu \right)^2, \quad \textrm{(Populacional)} \end{align} \tag{4.8}\] e \[ \begin{align} SQ & = \sum_{i = 1}^{n} \left(X_i - \bar{X} \right)^2. \quad \textrm{(Amostral)} \end{align} \tag{4.9}\] Percebemos que a soma de quadrados amostral pode ser também expressa por: \[ \begin{align} SQ & = \displaystyle\sum_{i = 1}^{n}X_i^2 - \frac{1}{n} \left(\sum_{i = 1}^{n}X_i\right)^2, \end{align} \tag{4.10}\] como pode ser provado no Teorema 1.1. Nesse último caso, podemos trabalhar sem o uso da informação da média, mas sim, apenas com as informações das observações. Essa medida apresenta uma outra informação interessante que é penalizar as observações quanto mais estiver distante do valor central. Observe que quando elevamos ao quadrado um alto desvio, esse valor se torna maior ainda, mas quando elevamos ao quadrado um desvio pequeno, esse valor não cresce tanto. Assim, conseguimos compreender quais os dados que estão mais dispersos em torno da média.

Baseado nessas informações, surge a variância populacional que é a média da soma de quadrados, denotada por \(\sigma^2\), definida a seguir.

Definição 4.4: Variância de uma população
Seja uma população \(X_1\), \(X_2\), \(\ldots\), \(X_N\), de tamanho \(N\), com parâmetro conhecido \(\mu = \sum_{i = 1}^{N} X_i / N\), então a variância populacional, denotada por \(\sigma^2\), é definida por: \[ \begin{align} \sigma^2 & = \frac{SQ_p}{N}, \end{align} \tag{4.11}\] em que \(SQ_p\) é dado pela expressão (4.8), ou de forma similar, \[ \begin{align} \sigma^2 & = \frac{\displaystyle\sum_{i = 1}^{N}X_i^2 - \frac{1}{N} \sum_{i = 1}^{N}X_i^2}{N}. \end{align} \tag{4.12}\]

Podemos de forma intuitiva, pensar no estimador para \(\sigma^2\) simplesmente substituindo “\(N\)” por “\(n\)” e \(SQ_p\) por \(SQ\), usando as mesmas expressões do que foram usados na Definição 4.4, isto é, \[ \begin{align} \hat{\sigma}^2 & = \frac{SQ}{n}. \end{align} \tag{4.13}\] Porém, existe uma propriedade nos estimadores, vista mais a frente, que é o seu viés. Dizemos que estimadores são viesados quando a sua esperança matemática não é igual ao parâmetro de interesse. Significa dizer em termos práticas, que mesmo se nós retirássemos todas as \(k\) amostras possíveis de uma população e para cada uma dessas amostras calculássemos a variância amostral, expressão (4.13), e posteriormente a média dessas variâncias, ou seja, \((\hat{\sigma}^2_1 +\hat{\sigma}^2_2 + \ldots + \hat{\sigma}^2_k) / k\), esse valor não seria igual a \(\sigma^2\). Logo, \(\hat{\sigma}^2\) é um estimador viesado. De outro modo, \(\hat{\sigma}^2\) é um estimador defeituoso. Para contornar esse problema, usamos a seguinte definição para uma variância amostral não viesada, denotada por \(S^2\), e apresentada na Definição 4.5.

Definição 4.5: Variância de uma amostra
Seja uma população \(X_1\), \(X_2\), \(\ldots\), \(X_n\), de tamanho \(n\), com \(\bar{X} = \sum_{i = 1}^{n} X_i / n\), então a variância amostral, denotada por \(S^2\), é definida como: \[ \begin{align} S^2 & = \frac{SQ}{n - 1}, \end{align} \tag{4.14}\] em que \(SQ\) é dado pela expressão (4.9), ou de forma similar, \[ \begin{align} S^2 & = \frac{\displaystyle\sum_{i = 1}^{n}X_i^2 - \frac{1}{n} \left(\sum_{i = 1}^{n}X_i\right)^2}{n - 1}. \end{align} \tag{4.15}\]

Para elucidar essas informações, vejamos o Exemplo 4.6.

Exemplo 4.4
Retornando aos dados amostrais simulados na Tabela 4.1, podemos calcular a variância amostral para cada um dos grupos. Vamos usar a expressão (4.15) para isso, que segue:

  • Variância amostral para o grupo gA: \[\begin{align*} S^2_{\textrm{gA}} & = \frac{6,746655 + \ldots + 10,779589^2 + }{10 - 1}\\ & = \frac{- 1 / 10 \times \left(6,746655 + \ldots + 10,779589 \right)^2}{10 - 1}\\ & = \frac{831,0017 - 8133,67 / 10}{9}\\ & = 1,959404~und^2 \end{align*}\]
  • Variância amostral para o grupo gB: \[\begin{align*} S^2_{\textrm{gB}} & = \frac{3,493309^2 + \ldots + 18,787223^2 +}{10 - 1}\\ & = \frac{ - 1 / 10 \times \left(3,493309 + \ldots + 18,787223 \right)^2}{10 - 1}\\ & = \frac{988,9577 - 8133,67 / 10}{9}\\ & = 19,51007~und^2 \end{align*}\]
  • Variância amostral para o grupo gC: \[\begin{align*} S^2_{\textrm{gC}} & = \frac{4,706090^2 + \ldots + 20,000000^2 +}{10 - 1}\\ & = \frac{- 1 / 10 \times \left(4,706090 + \ldots + 20,000000 \right)^2}{10 - 1}\\ & = \frac{990,8678 - 8133.67 / 10}{9}\\ & = 19,72232~und^2 \end{align*}\]

Podemos perceber que de fato os grupos gB e gC não são iguais, como podemos verificar pelos resultados das variâncias amostrais, uma vez que essa informação foi mascarada quando verificamos o resultado da amplitude para esses mesmos dois grupos no Exemplo 4.2. A dispersão das informações se torna mais detalhada, porque agora a medida leva em consideração todas as observações.

Para o caso de dados agrupados, apresentamos a seguir a notação para o cálculo da variância, pela Definição 4.6.

Definição 4.6: Variância em dados agrupados
Seja uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), de tamanho \(n\), agrupados em \(k\) grupos com variáveis \(X_i\) e frequência \(F_i\), ou \(k\) classes com pontos médios \(\tilde{X}_i\) e \(F_i\) frequências, para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(k\) e \(\sum_{i = 1}^{k}F_i = n\), então a variância de uma amostra, denotada por \(S^2\), é definida por: \[ \begin{align} S^2 & = \left\{\begin{array}{ll} \frac{\sum_{i = 1}^{k}(X_i - \bar{X})^2\times F_i}{\sum_{i = 1}^{k}F_i - 1}, & \textrm{s/ classe}, \\ &\\ \frac{\sum_{i = 1}^{k}(\tilde{X}_i - \bar{\tilde{X}})^2\times F_i}{\sum_{i = 1}^{k}F_i - 1}, & \textrm{c/ classe},\\ \end{array}\right. \end{align} \tag{4.16}\] sendo \(\tilde{X}_{i}\) o ponto médio das classes, \(\bar{X} = \sum_{i = 1}^{k} X_iF_i / \sum_{i = 1}^{k}F_i\) e \(\bar{\tilde{X}} = \sum_{i = 1}^{k} \tilde{X}_iF_i / \sum_{i = 1}^{k}F_i\), ou se forma similar, \[ \begin{align} S^2 & = \left\{\begin{array}{ll} \frac{\sum_{i = 1}^{k}X_i^2\times F_i - \frac{1}{\sum_{i = 1}^{k} F_i}(\sum_{i = 1}^{k} X_iF_i)^2}{\sum_{i = 1}^{k}F_i - 1}, & \textrm{s/ classe}, \\ & \\ \frac{\sum_{i = 1}^{k}\tilde{X}_i^2\times F_i - \frac{1}{\sum_{i = 1}^{k} F_i}(\sum_{i = 1}^{k} \tilde{X}_iF_i)^2}{\sum_{i = 1}^{k}F_i - 1}, & \textrm{c/ classe}. \\ \end{array}\right. \end{align} \tag{4.17}\]

Podemos representar a Definição 4.6 em termos populacionais, substituindo o tamanho \(n\) por \(N\) e considerando o denominador apenas como \(\sum_{i = 1}^{k}F_i - 1\) ao invés de \(\sum_{i = 1}^{k}F_i - 1\), tal que \(\sum_{i = 1}^{k}F_i = N\). Podemos também representar a expressão em termos de valor observado, como mencionado na definições anteriores.

Considerando os dados agrupados sem intervalo de classes (Tabela 2.2) e com intervalo de classes (Exemplo 2.1), respectivamente, podemos calcular a variância de acordo a Definição 4.6, no exemplo a seguir.

Exemplo 4.5
Iremos realizar o cálculo da variância para dados agrupados de acordo com a expressão (4.16). Inicialmente, vamos usar os dados agrupados sem intervalo de classe do número de erros encontrados em 20 conjunto de caracteres monitorado em um canal de comunicação, que segue:

\[\begin{align*} S^2 & = \frac{(0 - 1,7)^2 \times 3 + \ldots + (4 - 1,7)^2 \times 1}{20 - 1}\\ & = 1,3789~\textrm{erros}^2, \end{align*}\] cujo valor da média foi obtido do Exemplo 3.2. Para o cômputo da variância do próximo conjunto de dados referentes a temperatura (°\(F\)) do anel de vedação de cada teste de acionamento ou lançamento real do motor do foguete Challenger, temos: \[\begin{align*} S^2 & = \frac{(31 - 66,04)^2 \times 3 + \ldots + (84 - 66,04)^2 \times 1}{36 - 1}\\ & = 159,3550~\text{°}F^2, \end{align*}\] cujo valor da média foi obtido do Exemplo 3.3.

Para finalizar, podemos replicar o procedimento do Exemplo 4.5 usando o pacote leem apresentado no Código R 4.2.

Código R 4.2: Cálculo da variância.
# Anexando o pacote leem ao caminho de busca
library(leem)
# Dados do numero de erros (Variavel quantitativa discreta)
nerros <- read.table("https://raw.githubusercontent.com/bendeivide/book-epaec/master/dados/cap02/tabela2.1.txt", h = T)
# Calculando a variancia para dados
# agrupados sem intervalo de classe
nerros$erros |>
  new_leem() |>
  variance(rounding = 4)
# [1] 1.3789

# Calculando a variancia para dados
# nao agrupados
nerros$erros |>
  new_leem() |>
  variance(rounding = 4, grouped = FALSE)
# [1] 1.3789

# Dados da temperatura do Anel de vedacao do motor do foguete Challenger (Variavel quantitativa continua)
dados <- read.table("https://raw.githubusercontent.com/bendeivide/book-epaec/master/dados/cap02/dados_exem2.1.txt", h = T)
# Calculando a variancia para dados
#  agrupados com intervalo de classe
dados$challenger |>
  new_leem(variable = 2) |>
  variance(rounding = 4)
# [1] 159.355

# Calculando a variancia para dados
#  nao agrupados
dados$challenger |>
  new_leem(variable = 2) |>
  variance(rounding = 4, grouped = FALSE )
# [1] 147.8373

Podemos observar no Código R 4.2, que o cálculo da variância para as variáveis quantitativas discretas não mudam o resultado quando os dados estão agrupados ou não. Porém, o mesmo não ocorre para as variáveis quantitativas contínuas. Essa discussão será deixada como exercício proposto no Exercício 4.8.

Vejamos algumas características da variância:

  • a unidade da variância está na escala ao quadrado da unidade da variável;
  • limitada apenas as variáveis quantitativas;
  • a variância é sempre uma medida positiva, exceto quando todos os valores são iguais que resultam em uma variância nula;
  • quanto mais próximo de zero a variância for, mas concentrado os dados estão em torno da média, ao passo que, à medida que a variância se distancia de zero, mas disperso os dados estão em torno da média;
  • devido as suas propriedades matemáticas, algumas mencionadas anteriormente, bem como a quantidade de técnicas estatísticas que empregam essa medida, a torna como a mais conhecida dentre as medidas de dispersão;
  • uma vez que a média é sensível aos dados, a variância também é sensível, uma vez que esta depende da média.

Pelo Teorema 4.2, apresentamos algumas propriedades da variância a seguir, do qual iremos usar a Definição 4.5 como base, e as demais seguem de forma similar.

Teorema 4.2: Propriedades da Variância

Baseado na Definição 4.5, e considerando \(c\) uma constante, então:

  1. Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), a variância é dada por \(S^2_X\), expressão (4.14), então para uma transformação de \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então a nova variância não se altera, isto é, \(S^2_Y = S^2_X\).
  2. Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), a variância é dada por \(S^2_X\), expressão (4.14), então para uma transformação de \(Y_i = X_i \times c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então a nova variância é dada por \(S^2_Y = c^2\times S^2_X\). Esse resultado vale também para a transformação \(Y_i = X_i / m\), sendo \(m\) também uma constante. Basta usar \(c = 1 / m\) e o resultado é o mesmo.
Prova
  1. Considerando uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), e \(c\) uma constante, e que \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então a variância de \(Y_i\) é dado por: \[\begin{align*} S^2_Y & = \frac{\sum_{i = 1}^{n}(Y_i - \bar{Y})^2}{n - 1}\\ & = \frac{\sum_{i = 1}^{n}[(X_i \pm c) - (\bar{X} \pm c)]^2}{n - 1}\\ & = \frac{\sum_{i = 1}^{n}(X_i - \bar{X})^2}{n - 1}\\ & = S^2_X. \end{align*}\]

  2. Considerando uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), e \(c\) uma constante, e que \(Y_i = X_i \times c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então a variância de \(Y_i\) é dado por: \[\begin{align*} S^2_Y & = \frac{\sum_{i = 1}^{n}(Y_i - \bar{Y})^2}{n - 1}\\ & = \frac{\sum_{i = 1}^{n}[(X_i \times c) - (\bar{X} \times c)]^2}{n - 1}\\ & = \frac{\sum_{i = 1}^{n}c^2(X_i - \bar{X})^2}{n - 1}\\ & = c^2 \times \frac{\sum_{i = 1}^{n}(X_i - \bar{X})^2}{n - 1}, \quad \textrm{(Teorema 1.1, (I))}\\ & = c^2 \times S^2_X. \end{align*}\]

4.3 Desvio padrão

A variância apesar de ter resolvido alguns dos problemas mencionados anteriormente, para uma medida de dispersão, apresenta sua unidade ao quadrado da unidade da variável em estudo, isso significa que se tivermos usando uma variável na escala de metros, a dispersão dada pela variância estará na escala de área, isto é, em metros ao quadrado. Isso se torna difícil a percepção de dispersão quando observamos os dados. Dessa forma, surge a medida do desvio padrão, definida a seguir.

Definição 4.7: Desvio padrão
O desvio padrão é definido por: \[ \begin{align} \sigma & = \sqrt{\sigma^2}, \quad \textrm{(População)} \end{align} \tag{4.18}\] e \[ \begin{align} S & = \sqrt{S^2}, \quad \textrm{(Amostra)} \end{align} \tag{4.19}\] em que \(\sigma^2\) e \(S\) representam as variâncias populacional e amostral, respectivamente, apresentadas nas Definições 4.4 e 4.5 para o caso de dados não agrupados, e Definição 4.6 na condição de dados agrupados.

Com o desvio padrão, podemos verificar a medida de variabilidade na mesma unidade da variável. Cabe destacar que a expressão (4.18) mede a variabilidade das observações em torno da média populacional. Porém na prática, não conhecemos o parâmetro \(\mu\) nem muito menos temos informações de todas as observações. Com isso usamos como estimador de \(\sigma\), o desvio padrão amostral dado na expressão (4.19), que se baseia em apenas uma amostra. Vejamos o exemplo a seguir.

Exemplo 4.6
Retornando ao Exemplo 4.2, podemos então calcular os desvios padrões dos grupos, que segue:

  • Desvio padrão amostral para o grupo gA: \[\begin{align*} S_{\textrm{gA}} & = \sqrt{1,959404} = 1,399787~unid. \end{align*}\]
  • Desvio padrão amostral para o grupo gB: \[\begin{align*} S_{\textrm{gB}} & = \sqrt{19,51007} = 4,41702~und. \end{align*}\]
  • Desvio padrão amostral para o grupo gC: \[\begin{align*} S_{\textrm{gC}} & = \sqrt{19,72232} = 4,440982~und. \end{align*}\]

Considerando que as unidades dos grupos são iguais, bem como as suas médias, podemos concluir que o grupo gA apresenta menor dispersão. Claro que esse resultado poderia ter sido observado pela variância. A diferença é que conseguimos entender na unidade da variável essa dispersão.

Contudo, quando iremos comparar grupos de dados e verificar qual grupo apresenta maior variabilidade, devemos ter muito cuidado ao usar o desvio padrão ou a variância, sob dois aspectos:

  1. Os grupos de observações devem estar na mesma unidade de mensuração;
  2. A média desses grupos devem ser iguais.

O primeiro aspecto está muito claro, uma vez que não temos, por exemplo, como comparar uma unidade em gramas e saber se a dispersão desses dados é maior ou menor quando se compara com outro conjunto de dados cuja unidade esteja na escala de comprimento. O segundo aspecto está limitado devido a forma de como foram calculados o desvio padrão e a variância. A soma de seus desvios levam em consideração a média. Assim, quando comparamos dois desvios padrões de duas amostras de uma população, em que temos o desvio padrão \(S^2_1 = 10~unid\) para a amostra 1, e \(S^2_2 = 20~unid\) para a amostra 2. Não podemos afirmar que a amostra 2 apresenta maior dispersão que a amostra 1, isso porque não sabemos o quanto esse valor representa em relação a média. Supomos que a média da amostra 1 seja \(\bar{X}_1 = 100~unid\) e para a amostra 2, seja \(\bar{X}_1 = 50~unid\). Desse modo, observemos que para a amostra 1, o desvio padrão representa apenas 10% do valor da média. Já na amostra 2, o desvio padrão representa 40% da média, uma variação muito mais considerável, isto é, os dados na amostra 2 são muito mais dispersos em torno da média. Isso justifica então, a criação de uma medida de dispersão relativa à média, que será definida na próxima seção.

Vejamos algumas características do desvio padrão, que segue:

  • a unidade do desvio padrão está na mesma escala da unidade da variável em estudo;
  • limitada apenas as variáveis quantitativas;
  • uma vez que a média é sensível aos dados, o desvio padrão também é sensível, uma vez que esta depende da média;
  • embora a variância amostral, \(S^2\) seja um estimador não viesado para a variância populacional \(\sigma^2\), o desvio padrão amostral \(S\), que é derivado de \(S^2\), é um estimador viesado do desvio padrão populacional \(\sigma\);
  • assim como a variância, o desvio padrão é sempre uma medida positiva, exceto quando todos os valores são iguais que resultam em uma variância nula;
  • assim como na variância, quanto mais próximo de zero o desvio padrão for, mas concentrado os dados estão em torno da média, ao passo que, à medida que o desvio padrão se distancia de zero, mas disperso os dados estão em torno da média.

Complementando as características do desvio padrão, apresentamos algumas propriedades no Teorema 4.3, do qual iremos usar a Definição 4.7 como base, e as demais seguem de forma similar.

Teorema 4.3: Propriedades do Desvio Padrão

Baseado na Definição 4.7, e considerando \(c\) uma constante, então:

  1. Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), o desvio padrão é dado por \(S_X\), então para uma transformação de \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então o novo desvio padrão não se altera, isto é, \(S_Y = S_X\).
  2. Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), o desvio padrão é dado por \(S_X\), então para uma transformação de \(Y_i = X_i \times c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então o novo desvio padrão é dado por \(S_Y = S_X \times c\). Esse resultado vale também para a transformação \(Y_i = X_i / m\), sendo \(m\) também uma constante. Basta usar \(c = 1 / m\) e o resultado é o mesmo.
Prova
  1. Considerando uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), e \(c\) uma constante, e que \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então o desvio padrão de \(Y_i\) é dado por:

\[\begin{align*} S_Y & = \sqrt{\frac{\sum_{i = 1}^{n}(Y_i - \bar{Y})^2}{n - 1}}\\ & = \sqrt{\frac{\sum_{i = 1}^{n}[(X_i \pm c) - (\bar{X} \pm c)]^2}{n - 1}}\\ & = \sqrt{\frac{\sum_{i = 1}^{n}(X_i - \bar{X})^2}{n - 1}}\\ & = S_X. \end{align*}\]

  1. Considerando uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), e \(c\) uma constante, e que \(Y_i = X_i \times c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então a variância de \(Y_i\) é dado por: \[\begin{align*} S_Y & = \sqrt{\frac{\sum_{i = 1}^{n}(Y_i - \bar{Y})^2}{n - 1}}\\ & = \sqrt{\frac{\sum_{i = 1}^{n}[(X_i \times c) - (\bar{X} \times c)]^2}{n - 1}}\\ & = \sqrt{\frac{\sum_{i = 1}^{n}c^2(X_i - \bar{X})^2}{n - 1}}\\ & = \sqrt{c^2\frac{\sum_{i = 1}^{n}(X_i - \bar{X})^2}{n - 1}}, \quad \textrm{(Teorema 1.1, (I))}\\ & = c \times \sqrt{S^2_X},\\ & = c \times S_X. \end{align*}\]

4.4 Coeficiente de Variação

As medidas de variabilidade tais como a variância e desvio padrão, são conhecidas como medidas de dispersão absoluta. Diante do que foi exposto no fim da seção anterior sobre alguns problemas do desvio padrão, apresentamos mais uma medida de dispersão, Definição 4.8, agora uma medida relativa chamada de Coeficiente de Variação (CV), do qual pode ser usada para comparar a variabilidade entre quaisquer grupo de dados.

Definição 4.8: Coeficiente de Variação
O coeficiente de variação é definido por: \[ \begin{align} CV_p & = \frac{\sigma}{\mu} \times 100, \quad \textrm{(População)} \end{align} \tag{4.20}\] e \[ \begin{align} CV & = \frac{S}{\bar{X}} \times 100, \quad \textrm{(Amostra)} \end{align} \tag{4.21}\]

em que \(\sigma\) e \(S\) representam o desvio padrão populacional e amostral, respectivamente, apresentados na Definição 4.7, e \(\mu\) e \(\bar{X}\) representam a média populacional e amostral, respectivamente, Definição 3.1 para a condição de dados não agrupados, e Definição 3.2 para a condição de dados agrupados.

Apesar de não explicitarmos, como os desvios padrões populacional e amostral dependem das variâncias populacional e amostral na Definição 4.8, fica subtendido que o cálculo do CV para os dados agrupados (com ou sem intervalo de classes), usaremos a Definição 4.6 para o cálculo da variância. Da mesma forma, para calcularmos o CV para dados não agrupados, usaremos as Definições 4.4 e 4.5 para o cálculo das variâncias populacional e amostral, respectivamente. O coeficiente de variação permite comparar a dispersão de dois ou mais grupos com características completamente diferente e com médias diferentes. Vejamos o Exemplo 4.7, para ilustrar essa característica.

Exemplo 4.7
Com a medida do coeficiente de variação, podemos comparar a dispersão dos dados da Tabela 2.1 com a dispersão do grupo gA da Tabela 4.1. Para o primeiro conjunto de dados, podemos calcular a média e o desvio padrão do número de erros encontrados em 20 conjuntos de caracteres, dados por: \[\begin{align*} \bar{X}_e & = \frac{3 + 1 + \ldots + 1}{20} = 1,7~\textrm{erros}, \end{align*}\] e \[\begin{align*} S_e & = \sqrt{\frac{3^2 + 1^2 + \ldots + 1^2 - 1 / 20 \times (3 + 1 + \ldots + 1)^2}{19}}\\ & = 1,174286~\textrm{erros}, \end{align*}\] respectivamente. No caso dos dados do grupo gA, nós já temos os resultados da média e desvio padrão, dados na Tabela 4.1 e no Exemplo 4.6, respectivamente. Desse modo, comparando a dispersão dos dois grupos pelo coeficiente de variação, temos:

Dados Coeficiente de Variação (\(\mathbf{CV}\))
gA \(CV_{\textrm{gA}} = \frac{1,399787}{9,018686} \times 100 = 15,52\%\)
Número de erros \(CV_{e} = \frac{1,174286}{1,7} \times 100 = 69,08\%\)

Nesse caso, percebemos que os dados de gA tem menor variabilidade do que os dados do número de erros, e com isso, esses dados são melhor representado pela sua média amostral quando se comparado com o outro grupo de dados.

Mesmo resolvendo alguns problemas existentes nas medidas variância e desvio padrão, o coeficiente de variação apresenta algumas características importantes, que seguem:

  • O \(CV\) é adimensional e uma medida de dispersão relativa;
  • Essa medida pode ser utilizada para comparar a dispersão entre grupos diferentes de dados;
  • Como o \(CV\) é uma medida de dispersão relativa, isto é, o desvio padrão ponderado pela média. Isso significa que o \(CV\) calcula o quanto representa a dispersão (o desvio padrão) representa à média. Dessa forma, o \(CV\) se torna limitado a variáveis em que a escala de mensuração das observações em que fornece um zero absoluto ou uma origem significativa. Por exemplo, a temperatura em graus celsius (ºC), uma observação igual a 0ºC não significa ausência de temperatura, logo, o \(CV\) para esse tipo de variável não faz sentido. Já o a variável peso em quilos, isto é, o valor 0kg representa ausência de peso, de outro modo, esse tipo de variável permite magnitudes de valores na escala, tais como, uma observação de 40kg é o dobro de uma observação de 20kg. Assim, podemos utilizar o coeficiente de variação para verificar a dispersão da variável peso;
  • O \(CV\) pode superar o 100%. Isso ocorre quando o desvio padrão é maior do a média. Dizemos que esses superdispersos, um exemplo, são dados de contagem que seguem uma distribuição de Poisson.

As propriedades do \(CV\) levam em consideração as propriedade de \(\bar{X}\) e \(S\), que já foram demonstradas. Assim, ficam para estudo no Exercício proposto 5.1, a demonstração para as propriedades do \(CV\).

4.5 Erro padrão da média

Para iniciarmos uma última ideia sobre medidas de dispersão, dentre as medidas básicas, vamos iniciar como motivação, a Definição 4.9.

Definição 4.9: Erro da média amostral
Seja uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), de uma população com parâmetro \(\mu\), que representa a média populacional, e seu estimador \(\bar{X} = \sum_{i = 1}^{n} X_i / n\), então definimos o erro da média amostral, denotado por \(EA_{\bar{X}}\), da seguinte forma: \[ \begin{align} EA_{\bar{X}} & = \bar{X} - \mu. \end{align} \tag{4.22}\]

A medida expressa em (4.22) representa o erro de assumirmos a média amostral como um representante da média populacional. O desvio padrão de \(EA_{\bar{X}}\) é o que chamamos de erro padrão da média, definido a seguir.

Definição 4.10: Erro padrão da média (Populacional)
Seja uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), de uma população cujos parâmetros \(\mu\) e \(\sigma\), representam a média e o desvio padrão populacional, respectivamente, então o erro padrão da média, denotada por \(\sigma_{\bar{X}}\), é definido como: \[ \begin{align} \sigma_{\bar{X}} & = \frac{\sigma}{\sqrt{n}}, \end{align} \tag{4.23}\] em que \(n\) representa o tamanho da amostra.

Quando fazemos um comparativo entre o desvio padrão amostral e o erro padrão da média, entendemos que a primeira medida reflete a variabilidade de cada observação em torno da média amostral. Já o erro padrão da média representa a variabilidade de cada média amostral de todas amostra possíveis, em relação a média populacional.

Dessa forma, surgem alguns problemas para determinar a variabilidade da média amostral em torno da média populacional usando a expressão (4.23). Primeiro, é praticamente impossível realizar todas as amostras possíveis de uma população para computar a sua média. Se isso é possível, não precisaremos de amostra, uma vez que temos todas as informações da população, e então, estamos diante de um censo. Os outros fatores, podemos destacar que na prática, realizamos apenas uma amostra para análise das informação, e que o desvio padrão populacional geralmente é desconhecido, e assim, torna-se inviável o cálculo de \(\sigma_{\bar{X}}\). Uma alternativa é usar o estimador \(S\) ao invés de \(\sigma\), surgindo então um estimador para o erro padrão da média populacional, definido a seguir.

Definição 4.11: Erro padrão da média (Amostral)
Seja uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), de uma população cujos parâmetros \(\mu\) e \(\sigma\), representam a média e o desvio padrão populacional, respectivamente, então o erro padrão da média, denotada por \(\sigma_{\bar{X}}\), é definido como: \[ \begin{align} S_{\bar{X}} & = \frac{S}{\sqrt{n}}, \end{align} \tag{4.24}\] em que \(n\) representa o tamanho da amostra, e \(S\) é o desvio padrão da Definição 4.7.

É fácil observar que à medida que \(n \to N\), isto é, à medida que \(n\) aumenta, a média amostral tende a \(\mu\), logo o \(EA_{\bar{X}} \to 0\). Isso significa que a média amostral é mais precisa porque se aproxima cada vez mais da média populacional. Assim, com apenas uma amostra poderemos ter uma estimativa do erro padrão da média, apresentado no Exemplo 4.8.

Exemplo 4.8

Retornando ao Exemplo 4.2, podemos então calcular os erros padrões da média para as três amostras, que segue:

  • Erro padrão da média amostral para o grupo gA: \[\begin{align*} S_{\bar{X}_{\textrm{gA}}} & = 1,399787 / \sqrt{10} = 0,4665957~unid. \end{align*}\]
  • Erro padrão da média amostral para o grupo gB: \[\begin{align*} S_{\bar{X}_{\textrm{gB}}} & = 4,41702 / \sqrt{10} = 1,396784~und. \end{align*}\] Erro padrão da média amostral para o grupo gC: \[\begin{align*} S_{\bar{X}_{\textrm{gC}}} & = = 4,440982 / \sqrt{10} = 1,404362~und. \end{align*}\] \end{itemize} Percebemos que a média de gA estima melhor o parâmetro \(\mu\), uma vez que o erro padrão da média foi o menor dentre os demais.

Desse modo, observamos que o erro padrão da média representa uma precisão com que a média amostral estimou o parâmetro \(\mu\). Além do erro padrão da média, há diversos outros erros padrões para outros estimadores de parâmetros diversos, sendo abordado mais a frente. Além do mais, essa medida será largamente usada na teoria de estimação e de decisão, tanto para a construção de intervalos de confiança, como também no desenvolvimento de testes de hipóteses, sendo também abordado nos próximos capítulos.

Exercícios propostos

Exercício 4.1

Com relação as propriedades do Coeficiente de Variação (CV), prove que:

  1. Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), o coeficiente de variação, Definição 4.8, então para uma transformação de \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\) e \(c\) uma constante, então o novo coeficiente de variação é igual a \(CV_Y = S_X / (\bar{X} \pm c) \times 100\), em que \(\bar{X}\) e \(S_X\) são a média e o desvio padrão de \(X_i\), \(i = 1, 2, \ldots, n\);

  2. Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), o coeficiente de variação, Definição 4.8, então para uma transformação de \(Y_i = X_i \times c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\) e \(c\) uma constante, então o novo coeficiente de variação não se altera, isto é \(CV_Y = CV_X\). Esse resultado vale também para a transformação \(Y_i = X_i / m\), sendo \(m\) também uma constante. Basta usar \(c = 1 / m\) e o resultado é o mesmo.

Solução
  1. Considerando uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), assumimos que \(\bar{X}\) e \(S_X\) são a média e o desvio padrão, dado a transformação \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\) e \(c\) uma constante, podemos afirmar, pelos Teoremas 3.1 e 4.3, respectivamente, que a média e o desvio padrão de \(Y_i\), podem ser dadas por \(\bar{Y} = \bar{X} \pm c\) e \(S_Y = S_X\), respectivamente. Dessa forma, sabendo que o coeficiente de variação de \(X_i\) é dado por \(CV_X = S_X / \bar{X}\), então o coeficiente de variação de \(Y_i\) é: \[\begin{align*} CV_Y & = \frac{S_Y}{\bar{Y}} \\ \end{align*}\]

Exercício 4.2
A tabela abaixo apresenta a distribuição de frequências das notas (em pontos) obtidas num teste de matemática, realizado por 50 estudantes.

Notas \(\mathbf{F_i}\)
0 \(|\)— 2 4
2 \(|\)— 4 12
4 \(|\)— 6 15
6 \(|\)— 8 13
8 \(|\)— 10 6

Apresente o cálculo para todas as medidas de dispersão estudadas e as interprete.

Exercício 4.3
Para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\) de tamanho \(n\). Desejamos usar a transformação \(Y_i = \beta_0 + \beta_1X_i\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), considerando \(\beta_0\) e \(\beta_1\) constantes. Então, apresente as relação entre as médias e os desvios padrões de \(X\) e \(Y\).

Exercício 4.4
Sabemos que a conversão da temperatura de graus Celsius (°C) para a escala de Fahrenheit (°F) é dada por: \(F = 9 / 5 \times C + 32\), considerando a variável \(F\) a temperatura em Fahrenheit, e \(C\) a temperatura em graus Celsius. Se medíssemos a temperatura de um peça no momento de fabricação, e verificássemos que em média a peça é fabricada com temperatura de \(70\)°C e variância de \(2(^oC)^2\), como poderíamos representar essas medidas na escala Fahrenheit?

Exercício 4.5
Se tivéssemos estudando a variável temperatura em três escalas: graus Celsius, Fahrenheit e Kelvin, poderíamos calcular o coeficiente de variação para as três escalas? Explique.

Exercício 4.6
Considere uma amostra \(X_1\), \(X_2\), \(\dots\), \(X_n\) de tamanho \(n\), do qual conseguimos computar a média aritmética e variância amostral, sendo representadas por \(\bar{X}_n\) e \(S^2_n\), respectivamente, e que esses índices representam que estas medidas foram calculadas baseadas em um tamanho de amostra \(n\). Por alguma situação precisamos adicionar mais uma variável a esta amostra, isto é, a variável \(X_{n+1}\). Como poderíamos calcular as medidas \(\bar{X}_{n+1}\) e \(S^2_{n+1}\), partindo do pressuposto que só sabemos das informações \(\bar{X}_n\), \(S^2_n\) e \(X_{n+1}\)? Em um segundo momento considere o Exemplo 2.1, os dados sem agrupamento de classes, de modo que foi realizado uma nova medição da temperatura do anel de vedação no acionamento do foguete Challenger, sendo aferido o valor \(x_{37}=63\)ºF, use os resultados obtidos e determine \(\bar{x}_{n+1}\) e \(s^2_{n+1}\) após desse novo dado as observações.

Exercício 4.7
Considere uma amostra \(X_1\), \(X_2\), \(\dots\), \(X_n\) de tamanho \(n\), do qual conseguimos computar as medidas de posição \(\bar{X}\), \(Md(X)\) e \(Mo(X)\), isto é, a média, mediana e moda, respectivamente, bem como a variância \(S^2_X\). Considere também as transformações \(Y_i = X_i - \bar{X}\) e \(Z_i = (X_i - \bar{X}) / S\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), sendo \(S = \sqrt{S^2}\). Apresente as medidas de dispersão, desvio padrão e variância, para essas transformações, \(Y\) e \(Z\).

Exercício 4.8
De acordo com o Código R 4.2, percebemos que o cálculo da variância para as variáveis quantitativas discretas e contínuas apresentam resultados diferentes quando os dados são agrupados e não agrupados em distribuição de frequências. No caso das variáveis quantitativas discretas, agrupar ou não agrupar não faz diferença no resultado do cálculo da variância. Já para o caso das variáveis quantitativas contínuas os resultados se apresentam diferentes. Por que isso ocorre? Se fosse para escolher a medida de dispersão da variância para o caso das variáveis quantitativas contínuas, seria melhor apresentar o resultado dos resultados não agrupados ou agrupados? Apresente uma breve discussão sobre essas indagações.


  1. Entendemos por dados discrepantes, as observações que estão distantes da massa de dados (maior parte dos dados). Esses dados quando influenciam as análises estatísticas, dizemos que estes dados são influentes.↩︎

  2. Entendemos por estimador uma função que depende apenas dos dados amostrais e que irá representar um parâmetro (característica populacional) desconhecida.↩︎

  3. Dizemos que um estimador é viesado se a esperança matemática desse estimador é diferente do parâmetro de interesse.↩︎