Introdução¶

Um dos problemas a serem resolvidos na inferência estatística é testar uma hipótese. Isto é, feita uma afirmação sobre a população estudada, normalmente sobre algum parâmetro dela, desejamos saber se uma hipótese é verdadeira ou não. A adequação ou não dessa hipótese pode ser verificada ou refutada pela amostra. O objetivo do teste estatístico de hipóteses é, então, fornecer uma metodologia que nos permita verificar se os dados amostrais trazem evidências que validem ou não uma hipótese formulada.

Vamos imaginar a seguinte situação. Digamos que um artista plástico está participando de um leilão para comprar algumas peças cúbicas de metal . Nesse leilão, é vendido um lote com 30 peças cúbicas. Porém, o artista quer saber de qual marca são esses cubos. Com as características divulgadas até o momento, ele está em dúvida entre dois fabricantes, e como critério para saber qual é qual, ele usará a massa dos cubos. Para o fabricante A, a massa média de seus cubos é de $90 g$ com um desvio padrão de $12g$ e para o fabricante B é $100 g$ com um desvio padrão de $20g$ . Um pouco antes do leilão, será divulgado o peso médio de uma amostra de 30 cubos de metal. Qual será a regra de decisão para que o artista saiba de qual metal é o produto?

Uma forma que pode ser considerada é para qual a massa a media da amostra dos cubos mais se aproximar. 95 é o ponto médio entre a densidade do metal A e o metal B, então ele pode considerar os pesos como.

se $ \overline{x} \leq 95 g$, considera-se o material como do metal A;
se $ \overline{x} > 95 g$, considera-se o material como do metal B;

Suponha que, no dia do leilão, o artista é informado que $\overline{x} = 92 g$. De acordo com a regra de decisão, o artista diz que os cubos são do metal B. Pode o artista estar enganado da sua conclusão? Melhor dizendo, pode o artista está enganado nessa conclusão? É possível que uma amostra de 30 cubos metálicos do fabricante A apresentem uma média $\overline{x} = 92$? Sim é possível. Então, para melhor entendermos a regra de decisão adotada, é interessante estudarmos os tipos de erros que podemos cometer e as respectivas probabilidades.

Erro de tipo I: dizer que os cubos são do fabricante A quando na realidade são do fabricante B. Isso ocorre quando uma amostra de 30 cubos do fabricante B apresenta média $\overline{x}$ inferior ou igual a 95 g.
Erro de tipo II: dizer que os cubos são do fabricante B, quando na realidade eles são do fabricante A. Isso ocorre quando uma amostra de 30 cubos do fabricante A apresenta média $\overline{x}$ superior a 95 g.

Para facilitar ainda mais, vamos definir duas hipóteses também numeradas:

$H_0$: os cubos são do fabricante B. Isso equivale a dizer que a massa $X$ de cada cubo segue um distribuição com média $\overline{x} = 100$ e desvio padrão $\sigma = 20$
$H_1$: os cubos são do fabricante A. Isto é, a média $\overline{x} = 90$ e desvio padrão $\sigma = 12$

Finalmente, vamos indicar por Região crítica (RC) a região correspondente aos valores menores que 95, ou seja, $$RC = \{y \in \mathbb{R} | y \leq 95 \}$$

Com as notações indicadas acima, a probabilidade de se cometer cada um dos erros pode ser escrita: $$P(\text{erro I}) = P(\overline{X} \in RC | H_0 \text{ é verdadeira})$$

$$P(\text{erro II}) = P(\overline{X} \notin RC | H_1 \text{ é verdadeira})$$

Quando $H_0$ for verdadeira, isto é, os cubos forem do fabricante B, sabemos do TLC que $\overline{X}$ terá distribuição aproximadamente normal, com média 100 e desvio padrão igual a $\frac{20}{\sqrt{30}} = 3,65$, isto é, $$X \sim N(100; 13,32)$$

Com isso temos, $$P(\text{erro I}) = P(\overline{X} \in RC | H_0 \text{ é verdadeira})$$

$$= P(\overline{X} \leq 95 | \overline{X} \sim N(100, 13,32))$$$$= P(Z \leq \frac{95 - 100}{3,65})$$$$= P(Z \leq -1,37) = 0,08534 = 8,53\% = \alpha$$

De modo análogo, quando $H_1$ for a alternativa verdadeira, teremos,

$$X \sim N(90; 4,8)$$

Com isso temos, $$P(\text{erro II}) = P(\overline{X} \notin RC | H_1 \text{ é verdadeira})$$

$$= P(\overline{X} > 95 | \overline{X} \sim N(145, 4,8))$$$$= P(Z \leq \frac{95 - 90}{2,19})$$$$= P(Z \leq 2,28) = 0,0113 = 1,13\% = \beta$$

Observando esses dois resultados, notamos que, com a regra de decisão adotada, estaremos cometendo o erro de tipo I com maior probabilidade do que o erro de tipo II. De certo modo, essa regra de decisão privilegia a afirmação de que os cubos são do fabricante A.

Fabricante dos parafusos	Decisão do teste	Decisão do teste
	A	B
A	Sem erro	Erro tipo II ($\beta = 1,13\%$)
B	Erro tipo I ($\alpha = 8,53\%$)	Sem erro

Porém, podemos fazer o contrária e em vez de achar os erros, fixamos um deles. Por exemplos, vamos fixar o $\alpha = 5\%$, vamos ver qual a regra de decisão correspondente.

$$5 \% = P(\text{erro I}) = P(\overline{X} \leq \overline{x_c} | X \sim N(100; 13,32))$$$$= P(Z \leq -1,645)$$

da transformação normal padrão, sabemos que

$$-1,645 = \frac{\overline{x_c} - 100}{3,65}$$$$-1,645 \cdot 3,65= \overline{x_c} - 95$$$$\overline{x_c} = 100 - 6 = 94$$

Então, nossa nova regra de decisão será:

Se $\overline{x}$ for inferior a 94, dizemos que é do fabricante A, caso contrário, dizemos que é do fabricante B.

Com essa regra, a probabilidade do erro de tipo II será

$$P(\text{erro I}) = P(\overline{X} > 94 | X \sim N(90; 4,8))$$$$= P(Z \leq \frac{94 - 90}{2,19})$$$$= P(Z \leq 1,83) = 0,03362 = 3,36\% = \beta$$

Procedimento geral do teste de hipóteses¶

A construção de um teste de hipóteses, para um parâmetro populacional, pode ser colocada do seguinte modo. Existe uma variável $X$ associada a dada população e tem-se uma hipótese sobre determinado parâmetro $\theta$ dessa população. Por exemplo, afirmamos que o verdadeiro valor de $\theta$ é $\theta_{0^*}$. Colhe-se uma amostra aleatória de elementos dessa população, e com ela deseja-se comprovar ou não tal hipótese.

Como já vimos anteriormente, iniciamos nossa análise explicitando claramente qual a hipótese que estamos colocando à prova e a chamamos de hipótese nula, e escrevemos $$H_0: \theta = \theta_{0^*}$$

Em seguida, convém explicitar também a hipótese que será considerada aceitável, caso $H_0$ seja rejeitada. A essa hipótese chamamos de hipótese alternativa, e a sua caracterização estatística irá depender do grau de conhecimento que se tem do problema estudado. A alternativa mais geral seria $$H_1: \theta \neq \theta_{0^*}$$

Poderíamos, ainda, ter alternativas da forma

$$H_1: \theta < \theta_{0^*} \text{ ou } \theta > \theta_{0^*}$$

dependendo das informações que o problema traz.

Qualquer que seja a decisão tomada, vimos que estamos sujeitos a cometer erros. Para facilitar a linguagem, introduzimos as definições:

Erro de tipo I: rejeitar a hipótese nula quando essa é verdadeira. Chamamos de $\alpha$ a probabilidade de cometer esse erro, isto é, $$\alpha = P(\text{erro do tipo I}) = P(\text{rejeitar } H_0| H_0 \text{ é verdadeira})$$
Erro de tipo II: não rejeitar $H_0$ quando $H_0$ é falsa. A probabilidade de cometer esse erro é denotada por $\beta$, logo $$\beta = P(\text{erro do tipo II}) = P(\text{não rejeitar } H_0| H_0 \text{ é falsa})$$

Para facilitar o entendimento dos erros, vamos criar uma nova tabela:

Situação	Conclusão do teste	Conclusão do teste
	Rejeitar $H_0$	Não rejeitar $H_0$
$H_0 $ Verdadeira	Erro tipo I ($\alpha$)	Decisão correta
$H_0 $ Falsa	Decisão correta	Erro tipo II ($\beta$)

O objetivo do teste de hipóteses é dizer, usando uma estatística $\hat{\theta}$, se a hipótese $H_0$ é ou não aceitável. Operacionalmente, essa decisão é tomada através da consideração de uma região crítica RC. Caso o valor observado da estatística pertença a essa região rejeitamos $H_0$; caso contrário, não rejeitamos $H_0$. Esta região é construída de modo que $P(\hat{\theta} \in RC|H0 \text{ é verdadeira})$ seja igual a $\alpha$, fixado a priori. RC recebe o nome de região crítica ou região de rejeição do teste. Um fato importante a ressaltar é que a região crítica é sempre construída sob a hipótese de $H_0$ ser verdadeira.

A probabilidade $\alpha$ de se cometer um erro de tipo I é um valor arbitrário e recebe o nome de nível de significância do teste. O resultado da amostra é tanto mais significante para rejeitar $H_0$ quanto menor for esse nível $\alpha$. Ou seja, quanto menor for $\alpha$, menor é a probabilidade de se obter uma amostra com estatística pertencente à região crítica, sendo pouco verossímil a obtenção de uma amostra da população para a qual $H_0$ seja verdadeira. Usualmente, o valor de $\alpha$ é fixado em 5%, 1% ou 0,1%.

Passos para a construção de um teste de hipóteses¶

Abaixo temos uma sequência que pode ser usada sistematicamente para qualquer teste de hipóteses.

Fixe qual a hipótese $H_0$ a ser testada e qual a hipótese alternativa $H_1$.
Use a teoria estatística e as informações disponíveis para decidir qual estatística (estimador) será usada para testar a hipótese $H_0$. Obter as propriedades dessa estatística (distribuição, média, desvio padrão).
Fixe a probabilidade $\alpha$ de cometer o erro de tipo I e use este valor para construir a região crítica (regra de decisão). Lembre que essa região é construída para a estatística definida no passo 2, usando os valores do parâmetro hipotetizados por $H_0$.
Use as observações da amostra para calcular o valor da estatística do teste.
Se o valor da estatística calculado com os dados da amostra não pertencer à região crítica, não rejeite $H_0$; caso contrário, rejeite $H_0$.

Testes sobre a média de uma população com variância conhecida¶

Vamos ver um exemplo, com os passos definidos acima, para testar a hipótese de que a média de uma população $\mu$ seja igual a um número fixado $\mu_0$, supondo-se a variância $\sigma²$ dessa população conhecida.

Exemplo 2: Uma máquina automática para encher sacos de arroz enche-os segundo uma distribuição normal, com média $\mu$ e variância sempre igual a $400g²$. A máquina foi regulada para $\mu = 500g$. Desejamos, periodicamente, colher uma amostra de 25 sacos e verificar se a produção está sob controle, isto é, se $\mu = 500g$ ou não. Se uma dessas amostras apresentasse uma média $\overline{x} = 492g$, você pararia ou não a produção para regular a máquina?

Vamos ver como testar essa hipótese com os passos anteriores

X é o peso de cada pacote; então, $X \sim N(\mu, 400)$. E as hipóteses que nos interessam são: $$H_0 = \mu = 500g,$$ $$H_1 = \mu \neq 500g,$$ pois a máquina pode desregular para mais ou para menos.
O problema afirma que a variância, $\sigma = 400^2$, será sempre a mesma. Logo, para todo $\mu$ a média $\overline{X}$ de 25 pacotes terá distribuição $N(\mu, \frac{400}{25})$, de modo que o desvio padrão (ou erro padrão) de $\overline{X}$ é $\sigma_x = 4$. Em particular, se $H_0$ for verdadeira, $\overline{X} \sim N(500, 16)$
Vamos fixar $\alpha = 1\%$; pela hipótese alternativa, vemos que $H_0$ deve ser rejeitada quando $\overline{X}$ for muito pequena ou muito grande (dizemos que temos um teste bilateral). A imagem abaixo exemplifica como será a região crítica.

Da tabela da curva normal padronizada obtemos que $$z_1 = -2,58 = (\frac{\overline{x}_{c1} - 500}{4}) => \overline{x}_{c1} = 489,68$$ $$z_2 = -2,58 = (\frac{\overline{x}_{c2} - 500}{4}) => \overline{x}_{c2} = 510,32$$

Segue-se que a região crítica é $$RC = \{\overline{x} \in \mathbb{R}| \overline{x} \leq 489,68 \text{ ou } \overline{x} \geq 510,32\}$$

Temos a informação da média, que nesse caso é $\overline{x}_0 = 492g$
Como $\overline{x}_0$ não pertence à região crítica, nossa conclusão será não rejeitar $H_0$. Ou seja, o desvio da média da amostra para a média proposta por $H_0$ pode ser considerado como devido apenas ao sorteio aleatório dos pacotes.

Teste para proporção¶

Vamos usar novamente os passos descritos para construir o teste para proporções.

Temos uma população e uma hipótese sobre a proporção p de indivíduos portadores de certa característica. Esta hipótese afirma que essa proporção é igual a certo valor $p_0$. Então, $$H_0: p = p_0$$

O problema fornece informações sobre a alternativa, que pode ter uma das três formas abaixo: $$H_1: p \geq p_0, \text{ teste bilateral}$$ $$H_1: p > p_0, \text{ teste unilateral à direita}$$ $$H_1: p < p_0, \text{ teste unilateral à esquerda}$$

A estatística $\hat{p}$, a proporção amostral, tem uma distribuição aproximadamente normal, $$\hat{p} \sim N \Big(p, \frac{p(1-p)}{n} \Big)$$
Fixado um valor de $\alpha$, devemos construir a região crítica para $p$, sob a suposição de que o parâmetro definido por $H_0$ seja o verdadeiro. Ou seja, podemos escrever $$\hat{p} \sim N \Big(p_0, \frac{p_0(1-p_0)}{n} \Big)$$

O quarto e quinto passos dependerão da amostra. Vamos mostrar um exemplo

Exemplo 3: Uma estação de televisão afirma que 60% dos televisores estavam ligados no seu programa especial da última segunda-feira. Uma rede competidora deseja contestar essa afirmação e decide usar uma amostra de 200 famílias para um teste. Qual deve ser o procedimento adotado para avaliar a veracidade da afirmação da estação? No passo 4 a seguir daremos o resultado da amostra, pois é importante ficar claro que esse resultado não deve influenciar a escolha da alternativa.

Vamos começar criando nossas hipóteses. A estação afirma que $$H_0: p = 0,6$$ Logo, temos como hipótese alternativa $$H_1: p < 0,6$$ E porque apenas menor? Por que como é uma concorrente que esta fazendo esse teste ela quer provar que a outra emissora teve uma audiência menor, nunca maior, pois se fosse maior, ela não iria querer demonstrar isso. Pense na hipótese alternativa como o que você quer verificar, logo a emissora quer verificar uma audiência menor.
A estatística a ser usada é $\hat{p}$, a proporção de 200 famílias que assistiram ao programa na última segunda-feira, temos que $p = 0,6$ e da teoria sabemos que $$\hat{p} \sim N \Big(0,6, \frac{0,6(0,4)}{200} \Big)$$
Fixaremos $\alpha = 0,05$ e tendo a suposição que $H_0$ seja verdadeira, $$\hat{p} \sim N \Big(0,6, \frac{0,24}{200} \Big)$$ teremos a região crítica. $$P\Big(Z \leq \frac{\hat{p}_c - 0,6}{\sqrt{0,24/200}} \Big) = 0,05$$ $$(\frac{\hat{p}_c - 0,6}{0,03}) = -1,645 => Z = 0,543$$ $$RC = \{\hat{p} \in \mathbb{R}| \hat{p} \leq 0,543\}$$
Vamos adimitir que, da pesquisa feita com 200 famílias, 104 dessas estavam vendo o programa, logo: $$\hat{p} = \frac{104}{200} = 0,52$$
Do resultado anterior, vemos que $0,52 \in RC$, portanto, somo levados a rejeitar a $H_0$. Isto é, há evidências que a audiência do programa de segunda-feira não foi de 60% e sim inferior a esse número.

Poder de um teste¶

Vimos que, na construção de um teste de hipóteses, procuramos controlar o erro de tipo I, fixando sua probabilidade de ocorrência, $\alpha$, e construindo a região crítica de modo que $P(RC|H_0 \text{verdadeira}) = \alpha$. Ou seja, admitindo que $H_0$ seja verdadeira, estamos admitindo conhecido(s) o(s) parâmetro(s) que define(m) a distribuição da estatística usada no teste.

Por outro lado, a probabilidade do erro do tipo II, na maioria dos casos, não pode ser calculada, pois a hipótese alternativa usualmente especifica um conjunto de valores para o parâmetro. Vamos Voltar ao exemplo 2.

Exemplo 2 (continuação): No exemplo, a máquina enchia sacos de arroz, onde a variável aleatória $X$, que descreve o peso de cada pacote, tinha uma distribuição normal com média $\mu$ e variância $400$, de modo que a média amostral $\overline{X} \sim N(500, 16)$, sob a hipótese $H_0$. Com isso conseguimos determinar a região crítica $RC = \{\overline{x} \in \mathbb{R}| \overline{x} < 489,68 \text{ ou } \overline{x} > 510,32\}$ e nossa regra de decisão para verificar se a máquina estava ou não produzindo sobre controle foi:

Se $\overline{x} \in RA$, a máquina está sob controle; se $\overline{x} \in RC$, não está,

Onde RA é a região de aceitação do teste, isto é, complementar de RC em relação a $\mathbb{R}$ e, portanto, dada no nosso caso por $RA = \{\overline{x} \in \mathbb{R}| 489,68 \leq \overline{x} \leq 510,32\}$

A probabilidade $\beta$ do erro de tipo II não pode ser calculada, a menos que se especifique um valor alternativo para $\mu$. Segue-se que a função característica de operação do teste é dada por $$\beta({\mu}) = P(\text{aceitar }H_0| \mu) = P(\overline{X} \in RA|\mu)$$

$$= P(489,68 \leq \overline{X} \leq 510,32|\mu)$$

Por exemplo, se a máquina se desregular para $\mu = 505$, teremos

$$\beta({505}) = P(\overline{X} \in RA| \mu = 505) = P(-3,83 \leq Z \leq 1,33) = 0,90818 = 90,82\%$$

usando o fato que agora $\overline{X} \sim N(505, 16)$. Lembre-se que suposmos que $\sigma² = 400$ sempre.

Para qualquer outro valor do parâmetro $\mu$ podemos encontrar o respectivo valor de $\beta$, para a regra de decisão adotada.

Observe, por exemplo, que $1 - \beta = P(\text{rejeitar } H_0| \mu = 500) = \alpha = 0,01$

A quantidade $1 - \beta $ é usualmente chamada de poder ou potência do teste, e é a probabilidade de rejeitar a hipótese $H_0$, dado um valor qualquer de $\mu$, especificado ou não pela hipótese alternativa, e será denotado por $\pi(\mu)$. No nosso exemplo, $$\pi(\mu) = P(\text{rejeitar }H_0|\mu) = P(\overline{X} < 489,68 \text{ ou } \overline{X} > 510,32)$$

Vemos que $\pi(\mu)$ indica a probabilidade de uma decisão correta, para as diversas alternativas do parâmetro e pode ser usada para decidir entre dois testes para uma mesma hipótese.

Exemplo 4: Se no Exemplo 2, a amostra colhida fosse de 100 pacotes em vez de 25, e mantivéssemos o mesmo nível de significância $\alpha = 1\%$, a nova região crítica seria $$RC = \{\overline{x} \in \mathbb{R}| \overline{x} \leq 494,8 \text{ ou } \overline{x} \geq505,2\}$$

$$\pi(\mu) = P(\text{rejeitar }H_0|\mu) = P(\overline{X} < 494,8 \text{ ou } \overline{X} > 505,2)$$

In [3]:

valores = []
diff1 = []
diff2 = []
axis = []
for i in range(492, 516, 1):
    valores.append(i)
for i in valores:
    axis.append(i)
    diff1.append(power.normal_power_het((505 - i), 100, 0.01, std_null=2))
    diff2.append(power.normal_power_het((505 - i), 16, 0.01, std_null=4))

In [4]:

plt.plot(axis, diff1, label='n=100')
plt.plot(axis, diff2, label='n=16')
plt.legend()

Out[4]:

<matplotlib.legend.Legend at 0x7f3f6ee8ceb0>

Vemos com o gráfico acima, que em qualquer ponto do eixo x, a curva para $n = 100$ tem um probabilidade maior que a curva $n=16$. Com isso, notamos que para todos os valores sob a hipótese alternativa, a probabilidade de uma decisão correta é maior para amostras de tamanho 100 do que de tamanho 16. Dizemos, nesse caso, que o teste baseado em amostras de tamanho 100 é mais poderoso do que o teste baseado em amostras de tamanho 16. Esse fato está de acordo com a intuição de que um teste com amostras maiores deve levar a melhores resultados.

De modo geral, se quisermos testar $$H_0: \theta = \theta_0$$ $$H_1: \theta \neq \theta_0,$$

e determinada a RC do teste, baseada na estatística $\hat{\theta}$, podemos dar a seguinte definição geral

A função poder do teste $H_0$ contra $H_1$ é definida por $$\pi(\theta) = P(\hat{\theta} \in RC| \theta),$$ ou seja, é a probabilidade de rejeitar a hipótese nula, como função de $\theta$

Valor-p¶

O método de construção de um teste de hipóteses, descrito nas seções anteriores, parte da fixação do nível de significância $\alpha$. Pode-se argumentar que esse procedimento pode levar à rejeição da hipótese nula para um valor de $\alpha$ e à não-rejeição para um valor menor. Outra maneira de proceder consiste em apresentar a probabilidade de significância ou nível descritivo ou ainda valor-p do teste. Os passos são muito parecidos aos já apresentados; a principal diferença está em não construir a região crítica. O que se faz é indicar a probabilidade de ocorrer valores da estatística mais extremos do que o observado, sob a hipótese de $H_0$ ser verdadeira.

Exemplo 5: Voltemos ao Exemplo 3, onde: $$H_0: p = 0,6$$

Como vimos, admitindo essa hipótese verdadeira, $\hat{p} \sim N(0,60; \frac{0,24}{200})$ Colhida a amostra obtivemos $\hat{p}_0 = 104/200 = 0,52$. Portanto, podemos calcular qual a probabilidade de ocorrerem valores de $\hat{p}$ mais desfavoráveis para $H_0$ do que esse. É evidente que quanto menor for $\hat{p}, maior será a evidência contra $H_0: p = 0,60$. Assim, calculemos $$P(\hat{p} < 0,52 | p = 0,60) = P\Big(Z < \frac{\sqrt{200}(0,52 - 0,60)}{\sqrt{0,24}}\Big)$$

$$P(Z < -2,30) = 0,01 = 1\%$$

Esse resultado mostra que, se a audiência do programa fosse de 60% realmente, a probabilidade de encontrarmos uma amostra de 200 famílias com 52% ou menos de audiência é de 1%. Isso sugere que, ou estamos diante de uma amostra rara de ocorrer, 1 em 100, ou então a hipótese formulada não é aceitável. Nesse caso, somos levados a essa segunda opção, ou seja, os dados da amostra sugerem que a hipótese $H_0$ deve ser rejeitada.

Exemplo 6: Uma companhia de serviços de ônibus intermunicipais planejou uma nova rota para servir vários locais situados entre duas cidades importantes. Um estudo preliminar afirma que a duração das viagens pode ser considerada uma variável aleatória normal, com média igual a 300 minutos e desvio padrão igual a 30 minutos. As dez primeiras viagens realizadas nessa nova rota apresentaram média igual a 314 minutos. Esse resultado comprova ou não o tempo médio determinado nos estudos preliminares?

Indicando por $X$ a duração de cada viagem e por $\mu = E(X)$, queremos testar: $$H_0: \mu = 300$$ $$H_1: \mu \neq 300$$
As amostras de dez viagens terão média $\overline{X} \sim (\mu, \frac{\sigma^2}{10})$
Sob a hipótese de que H_0 é verdadeira, e pelo fato de $\sigma²$ ser conhecido (\sigma = 30), teremos $$\overline{X} \sim (300, \frac{900}{10})$$
Com o valor observado $x_0$, temos: $$P(\overline{X} > 314) = P\Big(Z > \frac{314-300}{\sqrt{900/10}}\Big)$$ $$= P\Big(Z > \frac{14}{9,49}\Big) = P(Z > 1,47) = 0,07$$

No exemplo, o resultado indica que a chance de ocorrerem amostras com médias iguais ou superiores a 314 é 7%, que é um valor não pequeno.

Se indicarmos genericamente por $\hat{\alpha}$ o valor-p, rejeitaremos $H_0$ para aqueles níveis de significância $\alpha$ maiores do que $\hat{\alpha}$. No Exemplo 6, rejeitaremos $H_0$, por exemplo, se $\alpha = 0,10$, mas não a rejeitaremos se $\alpha = 0,05$ ou $\alpha = 0,01$.

Teste para a variância de uma normal¶

Nos testes de hipóteses para a variância, verificamos se a variância alegada na hipótese inicial $\sigma²_0$ deve ser rejeitada ou não, tendo em vista a variância amostral observada $s^2$. Para esse teste, devemos lembrar que o estimador da variância $s^2$, multiplicado pelo fator é $\Big(\frac{n-1}{\sigma²_0}\Big)$:, segue uma distribuição qui-quadrado com $n − 1$ graus de liberdade: $$\chi² = \Big(\frac{n-1}{\sigma²_0}\Big) \sim \chi²(n-1)$$

Como temos um teste bilateral, a região crítica será da forma $RC=(0, \chi^2_1] \cup [\chi^2_2 , +\infty)$, tal que $$P(\chi² \in RC|H_0) = P(0 < \chi² < \chi²_1 \text{ ou } \chi² > \chi²_2) = \alpha$$

sendo $\alpha$ o nível de significância do teste, fixado a priori.

Observado o valor $s^2_0$ da estatística $S^2$, obteremos o valor $\chi^{2}_{0} =\frac{(n – 1)s²_0}{\sigma^2_0}$. Se $\chi²_0 \in RC$, rejeitamos $H_0$; caso contrário, aceitamos $H_0$.

Exemplo 7: Uma das maneiras de manter sob controle a qualidade de um produto é controlar sua variabilidade. Uma máquina de encher pacotes de arroz está regulada para enchê-los com média de 500 g e desvio padrão de 10 g. O peso de cada pacote $X$ segue uma distribuição $N(\mu, \sigma^2)$. Colheu-se uma amostra de 16 pacotes e observou-se uma variância de $S^2 = 169 g^2$. Com esse resultado, você diria que a máquina está desregulada com relação à variância?

$$H_0: \sigma² = 100$$$$H_0: \sigma² \neq 100$$

Fixado o nível de significância $\alpha$ em 5%, com ajuda da tabela da distribuição qui-quadrado, obtemos que a região crítica é dada por $$RC = \{\chi^2: 0 \leq \chi² \leq 6,26 \text{ ou } \chi² \geq 27,49\}$$

O valor observado da estatística é $$\chi²_0 = \frac{(n-1)s²_0}{\sigma²_0} = \frac{15 \cdot 169}{100} = 25,35$$

Com o valor observaado, vemos que $\chi² \notin RC$, logo, somo levado a aceitar $H_0$, isto é, a máquina está sob controle quanto a sua variância.

Teste sobre a média de uma normal com variância desconhecida¶

Vimos, anteriormente, como testar a média de uma normal, supondo que a variância seja conhecida. Porém, isso normalmente não é a realidade, logo iremos supor agora que temos uma variável aleatória $X$, com distribuição normal, com média $\mu$ e variância $\sigma²$ desconhecidas. Então, precisamos estimar a variância populacional, a partir da variância amostral. Sabemos que o estimador é $$s² = \frac{\sum^{n}_{i=1}(X_i - \overline{X})²}{n-1}$$

Com a estimativa para a variância populacional, calculamos a estimativa para a variância da média amostral (basta substituir $\sigma²$ por $s^2$, na fórmula da variância da média amostral, que conhecemos): $$s²_x = \frac{s²}{n}$$ $$s_x = \frac{s}{\sqrt{n}}$$

Utilizando a distribuição t-student, temos:

$$t = \frac{\overline{X} - \mu}{s_{\overline{X}}} = \frac{\overline{X} - \mu}{s/\sqrt{n}} \sim t(n-1)$$

Agora temos condições de testar as hipóteses $$H_0: \mu = \mu_0$$ $$H_0: \mu \neq \mu_0$$

A estatística a ser usada é $$T = \frac{\overline{X} - \mu}{s/\sqrt{n}}$$

que sabemos ter uma distribuição t de Student com $(n – 1)$ graus de liberdade. Fixado o valor de $\alpha$, podemos usar uma tabela de distribuição t-student e encontrar o valor $t_c$, tal que $P(|T| < t_c) = 1 - \alpha$.

Colhida a amostra de $n$ indivíduos, calculamos os valores $\overline{x}_0$ e $s^2_0$ das estatísticas $\overline{X}$ e $S^2$, respectivamente, e depois o valor $t_0 = \frac{\sqrt{n}(\overline{x}_0 – \mu_0)}{s_0} de $T$. Se o valor dessa estatística for inferior a $–t_c$, ou superior a $t_c$, rejeita-se $H_0$. Caso contrário, aceita-se $H0$.Para a construção de intervalos de confiança, temos que $$P\Big(-t{\gamma} < \frac{\sqrt{n}(\overline{X} – \mu)}{S} < t_{\gamma}\Big) = \gamma,$$

da qual segue o intervalo de confiança $$IC(\mu, \gamma) = \overline{X} \pm t_{\gamma} \frac{S}{\sqrt{n}}$$

muito parecido com o da variância conhecida.

Exemplo 8: Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina. Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3 mg. No nível de 5%, os dados refutam ou não a afirmação do fabricante?

As hipóteses são: $$H_0: \mu = 30$$ $$H_0: \mu \neq 30$$
Supondo que $X$, a quantidade de nicotina por cigarro, tenha distribuição $N(\mu, σ2)$, a estatística $$T = \frac{\overline{X} - 30}{3/\sqrt{25}}$$

terá distribuição $t(24)$

Por ser um teste unilateral, devemos procurar o valor $t_c$ tal que $$P(T > t_c) = 0,05$$

Da tabela de distribuição t-student obtemos $t_c = 1,71$, ou seja, região crítica da estatística $T$ é $RC = [1,71 + \infty [$.

O valor observado é: $$t_0 = \frac{(31,5 - 30)}{3/5} = 2,5$$
Como $t_0$ pertence à região crítica, rejeitamos $H_0$, ou seja, há evidências de que os cigarros contenham mais de 30 g de nicotina.

Podemos fazer também pelo cálculo do p-valor $$\hat{\alpha} = P(T > t_0|H_0) = P(T > 2,5| H_0) = 0,01$$

Como o p-valor é menor que o nível de significância, podemos rejeitar $H_0$

Para construir um IC(μ; 0,95), verificamos na tabela de distribuição t-student que o valor $t_γ$ = 2,064 e, portanto, $$IC(\mu; 0,95) = 31,5 \pm (2,064) \cdot 3/\sqrt{25} $$ $$IC(\mu; 0,95) = ]30,26; 32,74[$$

Sumário