gA gB gC
[1,] 10.037492 10.074985 4.706090
[2,] 9.631495 9.262990 4.772017
[3,] 7.257339 4.514678 6.404994
[4,] 8.801665 7.603329 7.338766
[5,] 10.589090 11.178181 7.817944
[6,] 10.779589 11.559177 8.372813
[7,] 7.583848 5.167695 8.894485
[8,] 9.272648 8.545296 10.112477
[9,] 6.746655 3.493309 11.767271
[10,] 9.487043 18.787223 20.000000
4 Medidas de dispersão
Iniciamos este capítulo, motivados por três conjuntos de dados que resultaram em mesma média aritmética propositalmente. Vejamos o Código R 4.1 a seguir. Esse código apresenta uma simulação de três grupos com 10 observações cada um. Os grupos formados foram gA
, gB
e gC
, com suas respectivas médias \(\bar{X}_{\textrm{\textsf gA}} = 9,018686~unid.\) , \(\bar{X}_{\textrm{\textsf gB}} = 9,018686~unid.\) e \(\bar{X}_{\textrm{\textsf gC}} = 9,018686~unid.\) , respectivamente. Dessa forma, poderíamos concluir que os grupos de dados são iguais? A resposta é não. Isso significa, que somente a medida de posição não satisfaz quanto a caracterização dos dados.
Os dados para os três grupos são apresentados na Tabela 4.1. Ao observarmos com mais detalhes os valores observados nos grupos, percebemos que eles não são iguais, de fato. Logo, poderíamos erroneamente afirmar que aqueles grupos eram semelhantes, simplemente olhando para as suas médias. O que ocorre é uma variabilidade nos dados diferenciada em cada grupo, e que a medida de dispersão não consegue caracterizá-la. Dizemos que variabilidade é a dispersão com que ocorre nos dados, e as medidas responsáveis em expressar essa variabilidade, chamamos na estatística descritiva de medidas de dispersão. Geralmente, usamos a representação dessa dispersão em torno de um valor central nos dados, que em nosso caso, será a média aritmética, devido a algumas propriedades matemáticas e estatísticas que essa medida tem, e que será vista ao longo de todo o livro.
A seguir, mostraremos algumas medidas de dispersão que auxiliarão na caracterização dos dados, bem como no auxílio a fundamentação de temas tão importantes como a inferência estatística e teoria de decisão, abordado em capítulos posteriores.
gA | gB | gC |
---|---|---|
\(6,746655\) | \(3,493309\) | \(4,706090\) |
\(7,257339\) | \(4,514678\) | \(4,772017\) |
\(7,583843\) | \(5,167695\) | \(6,404994\) |
\(8,801665\) | \(7,603329\) | \(7,338766\) |
\(9,272648\) | \(8,545295\) | \(7,817944\) |
\(9,487043\) | \(9,262990\) | \(8,372813\) |
\(9,631495\) | \(10,074985\) | \(8,894485\) |
\(10,037492\) | \(11,178181\) | \(10,112477\) |
\(10,589090\) | \(11,559177\) | \(11,767271\) |
\(10,779589\) | \(18,787223\) | \(20,000000\) |
\(\bar{X}_{\textrm{\textsf gA}} = 9,018686\) | \(\bar{X}_{\textrm{\textsf gB}} = 9,018686\) | \(\bar{X}_{\textrm{\textsf gC}} = 9,018686\) |
4.1 Amplitude total ou Amplitude
A primeira medida de dispersão que definiremos é a amplitude ou amplitude total, denotada por \(A\) ou \(A_t\). Iremos apresentar, três definições sobre a amplitude baseadas nos valores observados da população, da amostra, e em dados agrupados sem e com intervalo de classe. Vejamos o primeiro caso, pensando em uma população, apresentada na Definição 4.1.
Definição 4.1: Amplitude em uma população
Se desejarmos representar essa notação em termos de valor observado, temos \(a_t = x_{(N)} - x_{(1)}\). Já usamos uma referência sobre a amplitude total ou amplitude, expressão (2.11), quando agrupamos os dados em intervalo de classes, para o caso das variáveis quantitativas contínuas. Vejamos o Exemplo 4.1 sobre os dados da taxa de desmatamento na Amazônia legal, compreendido entre 1988 a 07/12/2020.
Exemplo 4.1: Desmatamento da Amazônia Legal
Podemos representar a aplitude em termos amostras, como será apresentado na Definição 4.2, a seguir.
Definição 4.2: Amplitude em uma amostra
O que vai diferenciar a representação nas expressões (4.1) e (4.2), e o número de elementos, isto é, o tamanho populacional representado por “\(N\)”, e o tamanho amostral, representado por “\(n\)”. Porém, percebemos que a realização do cálculo é a mesma. Da mesma forma que a representação populacional, podemos representar a amplitude em uma amostra, em termos de valor observado como \(a = x_{(n)} - x_{(1)}\). Vejamos o Exemplo 4.2, a seguir.
Exemplo 4.2
Grupo | Amplitude |
---|---|
gA |
\(A = 10,77959 - 6,746655 = 4,032934~und.\) |
gB |
\(A = 18,787223 - 3,493309 = 15,29391~und.\) |
gC |
\(A = 20,000000 - 3,493309 = 15,29391~und.\) |
Por esse resultado, podemos observar os grupos gB
e gC
que suas amplitudes foram iguais. Será que podemos, então afirmar que esses dois grupos são iguais? Quando observamos os dados, percebemos que os valores não são iguais. Isso ocorre por uma limitação nessa medida de dispersão. Vamos deixar para explorar essa situação mais a frente.
Para a amplitude em termos de dados agrupados, temos a situação em que as variáveis podem ser discretas ou contínuas. No caso, das variáveis quantitativas contínuas, os grupos são classes, e os valores passam a ser representados pelos seus pontos médios de cada classe. Assim, apresentamos na Definição 4.3, a amplitude para dados agrupados com e sem intervalo de classe.
Definição 4.3: Amplitude em dados agrupados
Podemos representar a Definição 4.3 em termos populacionais, substituindo o tamanho \(n\) por \(N\), como também representar a expressão em termos de valor observado, como mencionado na definições anteriores. Vejamos o Exemplo 4.3, a seguir.
Exemplo 4.3
Podemos ainda apresentar algumas características sobre a amplitude, dos quais temos:
- o resultado da amplitude é dado na mesma unidade da variável em estudo;
- uma medida de dispersão facilmente calculada;
- limitada apenas as variáveis quantitativas;
- essa medida é muito utilizada em comparações múltiplas, cartas de controle em estatística de qualidade, dentre outras áreas;
- a amplitude pode ser utilizada como medida de dispersão para comparar a variabilidade de dados de dois ou mais grupos diferentes;
- a amplitude é sensível a dados discrepantes1;
- a amplitude é limitada por levar em consideração apenas os valores extremos, e nada sobre as demais observações. Nesse caso, podem ocorrer situações como os apresentados no Exemplo 4.2, em que poderíamos erroneamente concluir que os grupos de dados
gB
egC
são iguais, uma vez que apresentam amplitude e média aritmética iguais; - segundo Ferreira (2009, p. 36), a amplitude amostral, expressão (4.2), substima a amplitude populacional, expressão (4.1), uma vez que é pouco provável que uma amostra contenha os valores mínimo e máximo da população, portanto, a amplitude amostral é um estimador2 viesado3 e ineficiente.
Complementando as características da amplitude, apresentamos algumas propriedades pelo Teorema 4.1 a seguir, do qual iremos usar a Definição 4.2 como base, e as demais seguem de forma similar.
Teorema 4.1: Propriedades da Amplitude
Baseado na Definição 4.2, e considerando \(c\) uma constante, então:
- Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), a amplitude é dada por \(A_X = X_{(n)} - X_{(1)}\), então para uma transformação de \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), a nova amplitude não se altera, isto é, \(A_Y = A_X\).
- Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), a amplitude é dada por \(A_X = X_{(n)} - X_{(1)}\), então para uma transformação de \(Y_i = X_i \times c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), a nova amplitude é dada por \(A_Y = A_X \times c\). Esse resultado vale também para a transformação \(Y_i = X_i / m\), sendo \(m\) também uma constante. Basta usar \(c = 1 / m\) e o resultado é o mesmo.
Prova
- Considerando uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), e \(c\) uma constante, e que \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então a amplitude de \(Y_i\) é dado por: \[\begin{align*} A_Y & = Y_{(n)} - Y_{(1)}\\ & = (X_{(n)} \pm c) - (X_{(1)} \pm c)\\ & = X_{(n)} - X_{(1)}\\ & = A_X. \end{align*}\]
- Considerando uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), e \(c\) uma constante, e que \(Y_i = X_i \times c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então a amplitude de \(Y_i\) é dado por: \[\begin{align*} A_Y & = Y_{(n)} - Y_{(1)}\\ & = (X_{(n)} \times c) - (X_{(1)} \times c)\\ & = (X_{(n)} - X_{(1)}) \times c\\ & = A_X \times c. \end{align*}\]
Devido ao problema encontrado no Exemplo 4.2, vamos apresentar algumas outras medidas que levem em consideração as demais variáveis bem como uma referência da posição central dos dados, que em nosso caso será a média aritmética.
4.2 Variância
Diante do Exemplo 4.2, percebemos que complementar a caracterização dos dados com a amplitude, se torna uma medida muito simples. Observamos que os grupos gB
e gC
apresentam mesmas médias e amplitudes. Assim, poderíamos dizer que os grupos são semelhantes. Mas quando observamos a Tabela 4.1, percebemos que estes são diferentes. Assim, vamos apresentar mais algumas medidas que englobem as demais variáveis e o valor central desses dados em seu cálculo, para apresentarmos medidas mais explicativas para dispersão de dados.
Considerando uma população \(X_1\), \(X_2\), \(\ldots\), \(X_N\) e sua respectiva amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), podemos considerar inicialmente o desvio médio como outra medida de dispersão, dada por: \[ \begin{align} DM_p & = \sum_{i = 1}^{N} \left(X_i - \mu \right), \quad \textrm{(Populacional)} \end{align} \tag{4.4}\] em que \(\mu = \sum_{i = 1}^{N} X_i / N\), e seu respectivo estimador é dado por: \[ \begin{align} DM & = \sum_{i = 1}^{n} \left(X_i - \bar{X} \right), \quad \textrm{(Amostral)} \end{align} \tag{4.5}\] em que \(\bar{X} = \sum_{i = 1}^{n} X_i / n\). Observamos agora, que diferentemente da amplitude, essa medida leva em consideração todos os elementos, seja da amostra ou da população, em relação a uma medida central, como preconizamos inicialmente a definição de uma medida de dispersão no início desse capítulo. O problema é que a expressão (4.5), como mostrado no Teorema 1.1, propriedade (V), sempre resulta em valor nulo para qualquer grupo amostral. De modo similar, a expressão (4.4) também \(\sum_{i = 1}^{N} \left(X_i - \mu \right) = 0\). Isso significa que essa medida não traz ganho algum a descrição dos dados, porque os desvios positivos anulam-se com os desvios negativos no somatório, sendo pois uma questão de problema algébrico. Para isso, podemos contornar essa situação inserindo uma função modular nessa medida anterior, e criar o módulo do desvio, dada por: \[ \begin{align} S_{|\mu|} & = \sum_{i = 1}^{N} \left|X_i - \mu \right|, \quad \textrm{(Populacional)} \end{align} \tag{4.6}\] e \[ \begin{align} S_{|\bar{X}|} & = \sum_{i = 1}^{n} \left|X_i - \bar{X} \right|. \quad \textrm{(Amostral)} \end{align} \tag{4.7}\] Desse modo, sabemos que \(\sum_{i = 1}^{n} \left|X_i - \bar{X} \right| \geq 0\), e agora temos uma medida que represente a dispersão com o qual os dados estão em torno da média. Quanto maior o módulo do desvio, mais disperso é o conjunto de dados. A questão do uso do módulo para resolver o problema da medida do desvio médio, nos gera uma outra dificuldade que poderemos ter mais a frente quando formos estudar inferência estatística. Tem situações que iremos precisar integrar, derivar, etc., dentre outras ferramentas matemáticas, que se torna mais fácil ao invés de usar o módulo, usarmos uma função quadrática na medida. Daí, surge uma outra medida de variabilidade que é a soma de quadrados, dada por: \[ \begin{align} SQ_{p} & = \sum_{i = 1}^{N} \left(X_i - \mu \right)^2, \quad \textrm{(Populacional)} \end{align} \tag{4.8}\] e \[ \begin{align} SQ & = \sum_{i = 1}^{n} \left(X_i - \bar{X} \right)^2. \quad \textrm{(Amostral)} \end{align} \tag{4.9}\] Percebemos que a soma de quadrados amostral pode ser também expressa por: \[ \begin{align} SQ & = \displaystyle\sum_{i = 1}^{n}X_i^2 - \frac{1}{n} \left(\sum_{i = 1}^{n}X_i\right)^2, \end{align} \tag{4.10}\] como pode ser provado no Teorema 1.1. Nesse último caso, podemos trabalhar sem o uso da informação da média, mas sim, apenas com as informações das observações. Essa medida apresenta uma outra informação interessante que é penalizar as observações quanto mais estiver distante do valor central. Observe que quando elevamos ao quadrado um alto desvio, esse valor se torna maior ainda, mas quando elevamos ao quadrado um desvio pequeno, esse valor não cresce tanto. Assim, conseguimos compreender quais os dados que estão mais dispersos em torno da média.
Baseado nessas informações, surge a variância populacional que é a média da soma de quadrados, denotada por \(\sigma^2\), definida a seguir.
Definição 4.4: Variância de uma população
Podemos de forma intuitiva, pensar no estimador para \(\sigma^2\) simplesmente substituindo “\(N\)” por “\(n\)” e \(SQ_p\) por \(SQ\), usando as mesmas expressões do que foram usados na Definição 4.4, isto é, \[ \begin{align} \hat{\sigma}^2 & = \frac{SQ}{n}. \end{align} \tag{4.13}\] Porém, existe uma propriedade nos estimadores, vista mais a frente, que é o seu viés. Dizemos que estimadores são viesados quando a sua esperança matemática não é igual ao parâmetro de interesse. Significa dizer em termos práticas, que mesmo se nós retirássemos todas as \(k\) amostras possíveis de uma população e para cada uma dessas amostras calculássemos a variância amostral, expressão (4.13), e posteriormente a média dessas variâncias, ou seja, \((\hat{\sigma}^2_1 +\hat{\sigma}^2_2 + \ldots + \hat{\sigma}^2_k) / k\), esse valor não seria igual a \(\sigma^2\). Logo, \(\hat{\sigma}^2\) é um estimador viesado. De outro modo, \(\hat{\sigma}^2\) é um estimador defeituoso. Para contornar esse problema, usamos a seguinte definição para uma variância amostral não viesada, denotada por \(S^2\), e apresentada na Definição 4.5.
Definição 4.5: Variância de uma amostra
Para elucidar essas informações, vejamos o Exemplo 4.6.
Exemplo 4.4
- Variância amostral para o grupo
gA
: \[\begin{align*} S^2_{\textrm{gA}} & = \frac{6,746655 + \ldots + 10,779589^2 + }{10 - 1}\\ & = \frac{- 1 / 10 \times \left(6,746655 + \ldots + 10,779589 \right)^2}{10 - 1}\\ & = \frac{831,0017 - 8133,67 / 10}{9}\\ & = 1,959404~und^2 \end{align*}\] - Variância amostral para o grupo
gB
: \[\begin{align*} S^2_{\textrm{gB}} & = \frac{3,493309^2 + \ldots + 18,787223^2 +}{10 - 1}\\ & = \frac{ - 1 / 10 \times \left(3,493309 + \ldots + 18,787223 \right)^2}{10 - 1}\\ & = \frac{988,9577 - 8133,67 / 10}{9}\\ & = 19,51007~und^2 \end{align*}\] - Variância amostral para o grupo
gC
: \[\begin{align*} S^2_{\textrm{gC}} & = \frac{4,706090^2 + \ldots + 20,000000^2 +}{10 - 1}\\ & = \frac{- 1 / 10 \times \left(4,706090 + \ldots + 20,000000 \right)^2}{10 - 1}\\ & = \frac{990,8678 - 8133.67 / 10}{9}\\ & = 19,72232~und^2 \end{align*}\]
Podemos perceber que de fato os grupos gB
e gC
não são iguais, como podemos verificar pelos resultados das variâncias amostrais, uma vez que essa informação foi mascarada quando verificamos o resultado da amplitude para esses mesmos dois grupos no Exemplo 4.2. A dispersão das informações se torna mais detalhada, porque agora a medida leva em consideração todas as observações.
Para o caso de dados agrupados, apresentamos a seguir a notação para o cálculo da variância, pela Definição 4.6.
Definição 4.6: Variância em dados agrupados
Podemos representar a Definição 4.6 em termos populacionais, substituindo o tamanho \(n\) por \(N\) e considerando o denominador apenas como \(\sum_{i = 1}^{k}F_i - 1\) ao invés de \(\sum_{i = 1}^{k}F_i - 1\), tal que \(\sum_{i = 1}^{k}F_i = N\). Podemos também representar a expressão em termos de valor observado, como mencionado na definições anteriores.
Considerando os dados agrupados sem intervalo de classes (Tabela 2.2) e com intervalo de classes (Exemplo 2.1), respectivamente, podemos calcular a variância de acordo a Definição 4.6, no exemplo a seguir.
Exemplo 4.5
\[\begin{align*} S^2 & = \frac{(0 - 1,7)^2 \times 3 + \ldots + (4 - 1,7)^2 \times 1}{20 - 1}\\ & = 1,3789~\textrm{erros}^2, \end{align*}\] cujo valor da média foi obtido do Exemplo 3.2. Para o cômputo da variância do próximo conjunto de dados referentes a temperatura (°\(F\)) do anel de vedação de cada teste de acionamento ou lançamento real do motor do foguete Challenger, temos: \[\begin{align*} S^2 & = \frac{(31 - 66,04)^2 \times 3 + \ldots + (84 - 66,04)^2 \times 1}{36 - 1}\\ & = 159,3550~\text{°}F^2, \end{align*}\] cujo valor da média foi obtido do Exemplo 3.3.
Para finalizar, podemos replicar o procedimento do Exemplo 4.5 usando o pacote leem apresentado no Código R 4.2.
Podemos observar no Código R 4.2, que o cálculo da variância para as variáveis quantitativas discretas não mudam o resultado quando os dados estão agrupados ou não. Porém, o mesmo não ocorre para as variáveis quantitativas contínuas. Essa discussão será deixada como exercício proposto no Exercício 4.8.
Vejamos algumas características da variância:
- a unidade da variância está na escala ao quadrado da unidade da variável;
- limitada apenas as variáveis quantitativas;
- a variância é sempre uma medida positiva, exceto quando todos os valores são iguais que resultam em uma variância nula;
- quanto mais próximo de zero a variância for, mas concentrado os dados estão em torno da média, ao passo que, à medida que a variância se distancia de zero, mas disperso os dados estão em torno da média;
- devido as suas propriedades matemáticas, algumas mencionadas anteriormente, bem como a quantidade de técnicas estatísticas que empregam essa medida, a torna como a mais conhecida dentre as medidas de dispersão;
- uma vez que a média é sensível aos dados, a variância também é sensível, uma vez que esta depende da média.
Pelo Teorema 4.2, apresentamos algumas propriedades da variância a seguir, do qual iremos usar a Definição 4.5 como base, e as demais seguem de forma similar.
Teorema 4.2: Propriedades da Variância
Baseado na Definição 4.5, e considerando \(c\) uma constante, então:
- Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), a variância é dada por \(S^2_X\), expressão (4.14), então para uma transformação de \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então a nova variância não se altera, isto é, \(S^2_Y = S^2_X\).
- Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), a variância é dada por \(S^2_X\), expressão (4.14), então para uma transformação de \(Y_i = X_i \times c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então a nova variância é dada por \(S^2_Y = c^2\times S^2_X\). Esse resultado vale também para a transformação \(Y_i = X_i / m\), sendo \(m\) também uma constante. Basta usar \(c = 1 / m\) e o resultado é o mesmo.
Prova
Considerando uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), e \(c\) uma constante, e que \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então a variância de \(Y_i\) é dado por: \[\begin{align*} S^2_Y & = \frac{\sum_{i = 1}^{n}(Y_i - \bar{Y})^2}{n - 1}\\ & = \frac{\sum_{i = 1}^{n}[(X_i \pm c) - (\bar{X} \pm c)]^2}{n - 1}\\ & = \frac{\sum_{i = 1}^{n}(X_i - \bar{X})^2}{n - 1}\\ & = S^2_X. \end{align*}\]
Considerando uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), e \(c\) uma constante, e que \(Y_i = X_i \times c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então a variância de \(Y_i\) é dado por: \[\begin{align*} S^2_Y & = \frac{\sum_{i = 1}^{n}(Y_i - \bar{Y})^2}{n - 1}\\ & = \frac{\sum_{i = 1}^{n}[(X_i \times c) - (\bar{X} \times c)]^2}{n - 1}\\ & = \frac{\sum_{i = 1}^{n}c^2(X_i - \bar{X})^2}{n - 1}\\ & = c^2 \times \frac{\sum_{i = 1}^{n}(X_i - \bar{X})^2}{n - 1}, \quad \textrm{(Teorema 1.1, (I))}\\ & = c^2 \times S^2_X. \end{align*}\]
4.3 Desvio padrão
A variância apesar de ter resolvido alguns dos problemas mencionados anteriormente, para uma medida de dispersão, apresenta sua unidade ao quadrado da unidade da variável em estudo, isso significa que se tivermos usando uma variável na escala de metros, a dispersão dada pela variância estará na escala de área, isto é, em metros ao quadrado. Isso se torna difícil a percepção de dispersão quando observamos os dados. Dessa forma, surge a medida do desvio padrão, definida a seguir.
Definição 4.7: Desvio padrão
Com o desvio padrão, podemos verificar a medida de variabilidade na mesma unidade da variável. Cabe destacar que a expressão (4.18) mede a variabilidade das observações em torno da média populacional. Porém na prática, não conhecemos o parâmetro \(\mu\) nem muito menos temos informações de todas as observações. Com isso usamos como estimador de \(\sigma\), o desvio padrão amostral dado na expressão (4.19), que se baseia em apenas uma amostra. Vejamos o exemplo a seguir.
Exemplo 4.6
- Desvio padrão amostral para o grupo
gA
: \[\begin{align*} S_{\textrm{gA}} & = \sqrt{1,959404} = 1,399787~unid. \end{align*}\] - Desvio padrão amostral para o grupo
gB
: \[\begin{align*} S_{\textrm{gB}} & = \sqrt{19,51007} = 4,41702~und. \end{align*}\] - Desvio padrão amostral para o grupo
gC
: \[\begin{align*} S_{\textrm{gC}} & = \sqrt{19,72232} = 4,440982~und. \end{align*}\]
Considerando que as unidades dos grupos são iguais, bem como as suas médias, podemos concluir que o grupo gA
apresenta menor dispersão. Claro que esse resultado poderia ter sido observado pela variância. A diferença é que conseguimos entender na unidade da variável essa dispersão.
Contudo, quando iremos comparar grupos de dados e verificar qual grupo apresenta maior variabilidade, devemos ter muito cuidado ao usar o desvio padrão ou a variância, sob dois aspectos:
- Os grupos de observações devem estar na mesma unidade de mensuração;
- A média desses grupos devem ser iguais.
O primeiro aspecto está muito claro, uma vez que não temos, por exemplo, como comparar uma unidade em gramas e saber se a dispersão desses dados é maior ou menor quando se compara com outro conjunto de dados cuja unidade esteja na escala de comprimento. O segundo aspecto está limitado devido a forma de como foram calculados o desvio padrão e a variância. A soma de seus desvios levam em consideração a média. Assim, quando comparamos dois desvios padrões de duas amostras de uma população, em que temos o desvio padrão \(S^2_1 = 10~unid\) para a amostra 1, e \(S^2_2 = 20~unid\) para a amostra 2. Não podemos afirmar que a amostra 2 apresenta maior dispersão que a amostra 1, isso porque não sabemos o quanto esse valor representa em relação a média. Supomos que a média da amostra 1 seja \(\bar{X}_1 = 100~unid\) e para a amostra 2, seja \(\bar{X}_1 = 50~unid\). Desse modo, observemos que para a amostra 1, o desvio padrão representa apenas 10% do valor da média. Já na amostra 2, o desvio padrão representa 40% da média, uma variação muito mais considerável, isto é, os dados na amostra 2 são muito mais dispersos em torno da média. Isso justifica então, a criação de uma medida de dispersão relativa à média, que será definida na próxima seção.
Vejamos algumas características do desvio padrão, que segue:
- a unidade do desvio padrão está na mesma escala da unidade da variável em estudo;
- limitada apenas as variáveis quantitativas;
- uma vez que a média é sensível aos dados, o desvio padrão também é sensível, uma vez que esta depende da média;
- embora a variância amostral, \(S^2\) seja um estimador não viesado para a variância populacional \(\sigma^2\), o desvio padrão amostral \(S\), que é derivado de \(S^2\), é um estimador viesado do desvio padrão populacional \(\sigma\);
- assim como a variância, o desvio padrão é sempre uma medida positiva, exceto quando todos os valores são iguais que resultam em uma variância nula;
- assim como na variância, quanto mais próximo de zero o desvio padrão for, mas concentrado os dados estão em torno da média, ao passo que, à medida que o desvio padrão se distancia de zero, mas disperso os dados estão em torno da média.
Complementando as características do desvio padrão, apresentamos algumas propriedades no Teorema 4.3, do qual iremos usar a Definição 4.7 como base, e as demais seguem de forma similar.
Teorema 4.3: Propriedades do Desvio Padrão
Baseado na Definição 4.7, e considerando \(c\) uma constante, então:
- Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), o desvio padrão é dado por \(S_X\), então para uma transformação de \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então o novo desvio padrão não se altera, isto é, \(S_Y = S_X\).
- Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), o desvio padrão é dado por \(S_X\), então para uma transformação de \(Y_i = X_i \times c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então o novo desvio padrão é dado por \(S_Y = S_X \times c\). Esse resultado vale também para a transformação \(Y_i = X_i / m\), sendo \(m\) também uma constante. Basta usar \(c = 1 / m\) e o resultado é o mesmo.
Prova
- Considerando uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), e \(c\) uma constante, e que \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então o desvio padrão de \(Y_i\) é dado por:
\[\begin{align*} S_Y & = \sqrt{\frac{\sum_{i = 1}^{n}(Y_i - \bar{Y})^2}{n - 1}}\\ & = \sqrt{\frac{\sum_{i = 1}^{n}[(X_i \pm c) - (\bar{X} \pm c)]^2}{n - 1}}\\ & = \sqrt{\frac{\sum_{i = 1}^{n}(X_i - \bar{X})^2}{n - 1}}\\ & = S_X. \end{align*}\]
- Considerando uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), e \(c\) uma constante, e que \(Y_i = X_i \times c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\), então a variância de \(Y_i\) é dado por: \[\begin{align*} S_Y & = \sqrt{\frac{\sum_{i = 1}^{n}(Y_i - \bar{Y})^2}{n - 1}}\\ & = \sqrt{\frac{\sum_{i = 1}^{n}[(X_i \times c) - (\bar{X} \times c)]^2}{n - 1}}\\ & = \sqrt{\frac{\sum_{i = 1}^{n}c^2(X_i - \bar{X})^2}{n - 1}}\\ & = \sqrt{c^2\frac{\sum_{i = 1}^{n}(X_i - \bar{X})^2}{n - 1}}, \quad \textrm{(Teorema 1.1, (I))}\\ & = c \times \sqrt{S^2_X},\\ & = c \times S_X. \end{align*}\]
4.4 Coeficiente de Variação
As medidas de variabilidade tais como a variância e desvio padrão, são conhecidas como medidas de dispersão absoluta. Diante do que foi exposto no fim da seção anterior sobre alguns problemas do desvio padrão, apresentamos mais uma medida de dispersão, Definição 4.8, agora uma medida relativa chamada de Coeficiente de Variação (CV), do qual pode ser usada para comparar a variabilidade entre quaisquer grupo de dados.
Definição 4.8: Coeficiente de Variação
em que \(\sigma\) e \(S\) representam o desvio padrão populacional e amostral, respectivamente, apresentados na Definição 4.7, e \(\mu\) e \(\bar{X}\) representam a média populacional e amostral, respectivamente, Definição 3.1 para a condição de dados não agrupados, e Definição 3.2 para a condição de dados agrupados.
Apesar de não explicitarmos, como os desvios padrões populacional e amostral dependem das variâncias populacional e amostral na Definição 4.8, fica subtendido que o cálculo do CV para os dados agrupados (com ou sem intervalo de classes), usaremos a Definição 4.6 para o cálculo da variância. Da mesma forma, para calcularmos o CV para dados não agrupados, usaremos as Definições 4.4 e 4.5 para o cálculo das variâncias populacional e amostral, respectivamente. O coeficiente de variação permite comparar a dispersão de dois ou mais grupos com características completamente diferente e com médias diferentes. Vejamos o Exemplo 4.7, para ilustrar essa característica.
Exemplo 4.7
gA
da Tabela 4.1. Para o primeiro conjunto de dados, podemos calcular a média e o desvio padrão do número de erros encontrados em 20 conjuntos de caracteres, dados por: \[\begin{align*}
\bar{X}_e & = \frac{3 + 1 + \ldots + 1}{20} = 1,7~\textrm{erros},
\end{align*}\] e \[\begin{align*}
S_e & = \sqrt{\frac{3^2 + 1^2 + \ldots + 1^2 - 1 / 20 \times (3 + 1 + \ldots + 1)^2}{19}}\\
& = 1,174286~\textrm{erros},
\end{align*}\] respectivamente. No caso dos dados do grupo gA
, nós já temos os resultados da média e desvio padrão, dados na Tabela 4.1 e no Exemplo 4.6, respectivamente. Desse modo, comparando a dispersão dos dois grupos pelo coeficiente de variação, temos:
Dados | Coeficiente de Variação (\(\mathbf{CV}\)) |
---|---|
gA |
\(CV_{\textrm{gA}} = \frac{1,399787}{9,018686} \times 100 = 15,52\%\) |
Número de erros | \(CV_{e} = \frac{1,174286}{1,7} \times 100 = 69,08\%\) |
Nesse caso, percebemos que os dados de gA
tem menor variabilidade do que os dados do número de erros, e com isso, esses dados são melhor representado pela sua média amostral quando se comparado com o outro grupo de dados.
Mesmo resolvendo alguns problemas existentes nas medidas variância e desvio padrão, o coeficiente de variação apresenta algumas características importantes, que seguem:
- O \(CV\) é adimensional e uma medida de dispersão relativa;
- Essa medida pode ser utilizada para comparar a dispersão entre grupos diferentes de dados;
- Como o \(CV\) é uma medida de dispersão relativa, isto é, o desvio padrão ponderado pela média. Isso significa que o \(CV\) calcula o quanto representa a dispersão (o desvio padrão) representa à média. Dessa forma, o \(CV\) se torna limitado a variáveis em que a escala de mensuração das observações em que fornece um zero absoluto ou uma origem significativa. Por exemplo, a temperatura em graus celsius (ºC), uma observação igual a 0ºC não significa ausência de temperatura, logo, o \(CV\) para esse tipo de variável não faz sentido. Já o a variável peso em quilos, isto é, o valor 0kg representa ausência de peso, de outro modo, esse tipo de variável permite magnitudes de valores na escala, tais como, uma observação de 40kg é o dobro de uma observação de 20kg. Assim, podemos utilizar o coeficiente de variação para verificar a dispersão da variável peso;
- O \(CV\) pode superar o 100%. Isso ocorre quando o desvio padrão é maior do a média. Dizemos que esses superdispersos, um exemplo, são dados de contagem que seguem uma distribuição de Poisson.
As propriedades do \(CV\) levam em consideração as propriedade de \(\bar{X}\) e \(S\), que já foram demonstradas. Assim, ficam para estudo no Exercício proposto 4.1, a demonstração para as propriedades do \(CV\).
4.5 Erro padrão da média
Para iniciarmos uma última ideia sobre medidas de dispersão, dentre as medidas básicas, vamos iniciar como motivação, a Definição 4.9.
Definição 4.9: Erro da média amostral
A medida expressa em (4.22) representa o erro de assumirmos a média amostral como um representante da média populacional. O desvio padrão de \(EA_{\bar{X}}\) é o que chamamos de erro padrão da média, definido a seguir.
Definição 4.10: Erro padrão da média (Populacional)
Quando fazemos um comparativo entre o desvio padrão amostral e o erro padrão da média, entendemos que a primeira medida reflete a variabilidade de cada observação em torno da média amostral. Já o erro padrão da média representa a variabilidade de cada média amostral de todas amostra possíveis, em relação a média populacional.
Dessa forma, surgem alguns problemas para determinar a variabilidade da média amostral em torno da média populacional usando a expressão (4.23). Primeiro, é praticamente impossível realizar todas as amostras possíveis de uma população para computar a sua média. Se isso é possível, não precisaremos de amostra, uma vez que temos todas as informações da população, e então, estamos diante de um censo. Os outros fatores, podemos destacar que na prática, realizamos apenas uma amostra para análise das informação, e que o desvio padrão populacional geralmente é desconhecido, e assim, torna-se inviável o cálculo de \(\sigma_{\bar{X}}\). Uma alternativa é usar o estimador \(S\) ao invés de \(\sigma\), surgindo então um estimador para o erro padrão da média populacional, definido a seguir.
Definição 4.11: Erro padrão da média (Amostral)
É fácil observar que à medida que \(n \to N\), isto é, à medida que \(n\) aumenta, a média amostral tende a \(\mu\), logo o \(EA_{\bar{X}} \to 0\). Isso significa que a média amostral é mais precisa porque se aproxima cada vez mais da média populacional. Assim, com apenas uma amostra poderemos ter uma estimativa do erro padrão da média, apresentado no Exemplo 4.8.
Exemplo 4.8
Retornando ao Exemplo 4.2, podemos então calcular os erros padrões da média para as três amostras, que segue:
- Erro padrão da média amostral para o grupo
gA
: \[\begin{align*} S_{\bar{X}_{\textrm{gA}}} & = 1,399787 / \sqrt{10} = 0,4665957~unid. \end{align*}\] - Erro padrão da média amostral para o grupo
gB
: \[\begin{align*} S_{\bar{X}_{\textrm{gB}}} & = 4,41702 / \sqrt{10} = 1,396784~und. \end{align*}\] Erro padrão da média amostral para o grupogC
: \[\begin{align*} S_{\bar{X}_{\textrm{gC}}} & = = 4,440982 / \sqrt{10} = 1,404362~und. \end{align*}\] \end{itemize} Percebemos que a média degA
estima melhor o parâmetro \(\mu\), uma vez que o erro padrão da média foi o menor dentre os demais.
Desse modo, observamos que o erro padrão da média representa uma precisão com que a média amostral estimou o parâmetro \(\mu\). Além do erro padrão da média, há diversos outros erros padrões para outros estimadores de parâmetros diversos, sendo abordado mais a frente. Além do mais, essa medida será largamente usada na teoria de estimação e de decisão, tanto para a construção de intervalos de confiança, como também no desenvolvimento de testes de hipóteses, sendo também abordado nos próximos capítulos.
Exercícios propostos
Exercício 4.1
Com relação as propriedades do Coeficiente de Variação (CV), prove que:
Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), o coeficiente de variação, Definição 4.8, então para uma transformação de \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\) e \(c\) uma constante, então o novo coeficiente de variação é igual a \(CV_Y = S_X / (\bar{X} \pm c) \times 100\), em que \(\bar{X}\) e \(S_X\) são a média e o desvio padrão de \(X_i\), \(i = 1, 2, \ldots, n\);
Se para uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), o coeficiente de variação, Definição 4.8, então para uma transformação de \(Y_i = X_i \times c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\) e \(c\) uma constante, então o novo coeficiente de variação não se altera, isto é \(CV_Y = CV_X\). Esse resultado vale também para a transformação \(Y_i = X_i / m\), sendo \(m\) também uma constante. Basta usar \(c = 1 / m\) e o resultado é o mesmo.
Solução
- Considerando uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), assumimos que \(\bar{X}\) e \(S_X\) são a média e o desvio padrão, dado a transformação \(Y_i = X_i \pm c\), para \(i\) \(=\) \(1\), \(2\), \(\ldots\), \(n\) e \(c\) uma constante, podemos afirmar, pelos Teoremas 3.1 e 4.3, respectivamente, que a média e o desvio padrão de \(Y_i\), podem ser dadas por \(\bar{Y} = \bar{X} \pm c\) e \(S_Y = S_X\), respectivamente. Dessa forma, sabendo que o coeficiente de variação de \(X_i\) é dado por \(CV_X = S_X / \bar{X}\), então o coeficiente de variação de \(Y_i\) é: \[\begin{align*} CV_Y & = \frac{S_Y}{\bar{Y}} \\ \end{align*}\]
Exercício 4.2
Notas | \(\mathbf{F_i}\) |
---|---|
0 \(|\)— 2 | 4 |
2 \(|\)— 4 | 12 |
4 \(|\)— 6 | 15 |
6 \(|\)— 8 | 13 |
8 \(|\)— 10 | 6 |
Apresente o cálculo para todas as medidas de dispersão estudadas e as interprete.
Exercício 4.3
Exercício 4.4
Exercício 4.5
Exercício 4.6
Exercício 4.7
Exercício 4.8
Entendemos por dados discrepantes, as observações que estão distantes da massa de dados (maior parte dos dados). Esses dados quando influenciam as análises estatísticas, dizemos que estes dados são influentes.↩︎
Entendemos por estimador uma função que depende apenas dos dados amostrais e que irá representar um parâmetro (característica populacional) desconhecida.↩︎
Dizemos que um estimador é viesado se a esperança matemática desse estimador é diferente do parâmetro de interesse.↩︎