import pandas as pd
import numpy as np
from scipy import stats
import seaborn as sns
import matplotlib.pyplot as plt
from decimal import Decimal
import warnings
warnings.filterwarnings('ignore')
df_salarios = pd.read_csv('dados/dados_tratados.csv').drop('Unnamed: 0', axis=1)
df_b3 = pd.read_csv('dados/b3_stocks_1994_2020.csv')
df_b3['datetime'] = pd.to_datetime(df_b3['datetime'])
Em muitas situações, ao descrevermos os resultados de um experimento, atribuímos a um mesmo ponto amostral os valores de duas ou mais variáveis aleatórias. Quando fazemos isso estamos com uma distribuição conjunta. As distribuições de probabilidade conjuntas apresentam os valores de probabilidade para duas (ou mais) variáveis simultaneamente. Quando estudamos conjuntamente 2 variáveis, dizemos que se trata de uma distribuição bidimensional ou de uma variável bidimensional. Quando houver mais variáveis, utilizamos o termo multidimensional.
Vamos a um exemplo
Exemplo 1
Temos 6 bolas, sendo 3 de cor azul e 3 de cor vermelha dentro de uma caixa e vamos retirar 3 bolas. Os resultados, que serão chamados de eventos, são esses. Nós queremos saber quantas bolas azuis nós podemos tirar e se bolas de mesma cor, tanto azul quanto vermelha, são tiradas em sequência.
Evento | Probabilidade | X | Y | Z |
---|---|---|---|---|
AAA | 1/8 | 3 | 1 | 0 |
AAV | 1/8 | 2 | 1 | 1 |
AVA | 1/8 | 2 | 1 | 2 |
VAA | 1/8 | 2 | 0 | 1 |
AVV | 1/8 | 1 | 1 | 1 |
VAV | 1/8 | 1 | 0 | 2 |
VVA | 1/8 | 1 | 0 | 1 |
VVV | 1/8 | 0 | 0 | 0 |
Nós temos as seguintes distribuições de probabilidade unidimensionais com a tabela acima
x | 0 | 1 | 2 | 3 | y | 0 | 1 | z | 0 | 1 | 2 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
p(x) | 1/8 | 3/8 | 3/8 | 1/8 | p(y) | 1/2 | 1/2 | p(z) | 1/4 | 1/2 | 1/4 |
Vamos agora analisar apenas as variáveis $X$ e $Y$. A tabela que criaremos é chamada de distribuição conjunta de $X$ e $Y$.
(x,y) | p(x,y) |
---|---|
(0,0) | 1/8 |
(1,0) | 2/8 |
(1,1) | 1/8 |
(2,0) | 1/8 |
(2,1) | 2/8 |
(3,1) | 1/8 |
Vamos criar uma tabela de contingência:
Y \ X | 0 | 1 | 2 | 3 | p(y) |
---|---|---|---|---|---|
0 | 1/8 | 2/8 | 1/8 | 0 | 1/2 |
1 | 0 | 1/8 | 2/8 | 1/8 | 1/2 |
p(x) | 1/8 | 3/8 | 3/8 | 1/8 | 1 |
sendo $p(x,y) = P(X = x, Y = y)$. Com a tabela acima criada, conseguimos ver as distribuições marginais. A primeira e última linha nos indicam a distribuição marginal de $X$, $(x, p(x))$, enquanto a primeira e última colunas nos indicam a distribuição marginal de $Y$, $(y, p(y))$. Exemplo, se quisermos saber a probabilidade de $X$ quando $X$ for 3, olhamos a tabela na última linha na coluna que pertence ao valor 3 e vemos que é $\frac{1}{8}$.
$$P(X = 3) = P(X = 3, Y = 0) + P(X = 3, Y = 1)$$$$P(X = 3) = 0 + \frac{1}{8}$$$$P(X = 3) = \frac{1}{8}$$Portanto, para obter probabilidade marginais, criar uma tabela de contingência é uma boa saída.
Porém, as vezes, queremos saber as probabilidades baseado em alguma linha ou coluna específica. Logo, queremos essa probabilidade baseada em alguma condição. Por exemplo, em nosso exemplo, imagina que queremos saber qual é a distribuição do número de bolas azuis, sabendo que a primeira bola foi azul? Ou seja, queremos calcular a probabilidade $P(X = x|Y = 1)$. Da definição de probabilidade condicional, obtemos:
$$P(X = x | Y = 1) = \frac{P(X = x, Y = 1)}{P(Y = 1)}$$onde:
Criando uma tabela de distribuição condicional de $X$, dado que $Y = 1$, temos:
x | 0 | 1 | 2 | 3 |
---|---|---|---|---|
p(x) | 0 | 1/4 | 1/2 | 1/4 |
Vemos que se somamos todos os valores temos 1, logo:
$$\sum_x p(X = x|Y = 1) = p(X = 0|Y = 1) + p(X = 1|Y = 1) + p(X = 2|Y = 1) + p(X = 3|Y = 1)$$Generalizando esse exemplo, podemos definir como:
Definição: Seja $x_i$ um valor de X, tal que $P(X = x_i) = p(x_i) > 0$. A probabilidade
$$P(X = x_i| Y = y_j) = \frac{P(X = x_i, Y = y_j)}{P(Y = y_j)}, x = 1, ..., n$$é denominada probabilidade condicional de $X = x_i$, dado que $Y = y_j$.
Voltando ao nosso exemplo, vamos calcular a média dessa distribuição, então nós temos
$$0 \cdot 0 + 1 \cdot \frac{1}{4} + 2 \cdot \frac{1}{2} + 3 \cdot \frac{1}{4} = 0 + 0,25 + 1 + 0,75 = 2$$Então podemos definir como:
Definição:
A esperança condicional de $X$, dado que $Y = y_j$ é:
$$E(X|Y = y_j) = \sum_{i=1}^{n}x_i P(X = x_i|Y = y_i)$$Exemplo 2:
Vamos agora fazer a distribuição conjunta de $Y$ e $Z$:
(y,z) | p(y,z) |
---|---|
(0,0) | 1/8 |
(0,1) | 2/8 |
(0,2) | 1/8 |
(1,0) | 1/8 |
(1,1) | 2/8 |
(1,2) | 1/8 |
Vamos criar uma tabela de contingência:
Y \ Z | 0 | 1 | 2 | p(y) |
---|---|---|---|---|
0 | 1/8 | 2/8 | 1/8 | 1/2 |
1 | 1/8 | 2/8 | 1/8 | 1/2 |
p(z) | 1/4 | 2/4 | 1/4 | 1 |
Lembrando que a variável $Y$ é para a primeira bola ser azul e a variável $Z$ será se a quantidade de variações na cor entre uma bola e outra. Vemos que uma variável não interfere na outra, sendo elas independentes uma da outra.
Para variáveis independentes, definimos a probabilidade como:
Definição: As variáveis aleatórias $X$ e $Y$, são independentes, se, e somente se, para todo par de valores $(x_i, y_j)$ de $X$ e $Y$, tivermos que
$$P(X = x_i, Y = y_j) = P(X = x_i) \cdot P(Y = y_j)$$Por exemplo:
$$P(Z = 0, Y = 0) = \frac{1}{4} \cdot \frac{1}{2} = \frac{1}{8}$$Vamos novamente pegar as variáveis aleatórias $X$ e $Y$.
(x,y) | p(x,y) |
---|---|
(0,0) | 1/8 |
(1,0) | 2/8 |
(1,1) | 1/8 |
(2,0) | 1/8 |
(2,1) | 2/8 |
(3,1) | 1/8 |
A partir delas, vamos considerar a variável $X + Y$, ou a variável $X \cdot Y$. A variável $X + Y$ será a soma de cada valor de X e Y, enquanto a variável $X \cdot Y$ será o produto.
$$(X + y)(\omega) = X(\omega) + Y(\omega)$$$$(X \cdot y)(\omega) = X(\omega) \cdot Y(\omega)$$(x,y) | X + Y | XY | p(x,y) |
---|---|---|---|
(0,0) | 0 | 0 | 1/8 |
(0,1) | 1 | 0 | 0 |
(1,0) | 1 | 0 | 2/8 |
(1,1) | 2 | 1 | 1/8 |
(2,0) | 2 | 0 | 1/8 |
(2,1) | 3 | 2 | 2/8 |
(3,0) | 3 | 0 | 0 |
(3,1) | 4 | 3 | 1/8 |
A partir da tabela acima, conseguimos as distribuições de $X + Y$ e $XY$
x + y | 0 | 1 | 2 | 3 | 4 |
---|---|---|---|---|---|
p(x) | 1/8 | 2/8 | 2/8 | 2/8 | 1/8 |
xy | 0 | 1 | 2 | 3 | 4 |
---|---|---|---|---|---|
p(x) | 4/8 | 1/8 | 1/8 | 1/8 | 1/8 |
Vamos calcular a esperança para as variáveis $X$, $Y$ e $Z$.
$$E(X) = 0 \cdot \frac{1}{8} + 1 \cdot \frac{3}{8} + 2 \cdot \frac{3}{8} + 3 \cdot \frac{1}{8} = 0 + \frac{3}{8} + \frac{6}{8} + \frac{3}{8} = \frac{12}{8} = 1,5$$$$E(Y) = 0 \cdot \frac{1}{2} + 1 \cdot \frac{1}{2} = 0 + \frac{1}{2} = 0,5$$$$E(Z) = 0 \cdot \frac{1}{4} + 1 \cdot \frac{2}{4} + 2 \cdot \frac{1}{4}= 0 + \frac{2}{4} + \frac{2}{4} = 1$$E calculando a esperança da variável $X + Y$:
$$E(X + Y) = 0 \cdot \frac{1}{8} + 1 \cdot \frac{2}{8} + 2 \cdot \frac{2}{8} + 3 \cdot \frac{2}{8} + 4 \cdot \frac{1}{8}= 0 + \frac{2}{8} + \frac{4}{8} + \frac{6}{8} + \frac{4}{8} = \frac{16}{8} = 2$$Logo, vemos que $E(X + Y) = E(X) + E(Y)$
Vamos calcular a esperança da variável $XY$
$$E(XY) = 0 \cdot \frac{4}{8} + 1 \cdot \frac{1}{8} + 2 \cdot \frac{2}{8} + 3 \cdot \frac{1}{8} = 0 + \frac{1}{8} + \frac{4}{8} + \frac{3}{8} = \frac{8}{8} = 1 $$Logo, vemos que $E(XY) \neq E(X)E(Y)$
Vamos calcular a esperança da variável $YZ$
$$E(YZ) = 0 \cdot \frac{5}{8} + 1 \cdot \frac{2}{8} + 2 \cdot \frac{1}{8} = 0 + \frac{2}{8} + \frac{2}{8} = \frac{4}{8} = 0,5 $$Logo, vemos que $E(YZ) = E(Y)E(Z)$
Isso nos indica que esse princípio só serve para variáveis independentes. Vamos definir:
Definição:
Se $X$ e $Y$ são variáveis aleatórias (dependentes ou independentes), então:
$$E(X + Y) = E(X) + E(Y)$$Se $X$ e $Y$ são variáveis aleatórias independentes, então:
$$E(XY) = E(X) \cdot E(Y)$$A covariância pode ser definida como o valor médio (esperança) do produto dos desvios $X$ e $Y$ em relação às suas respectivas médias.
Definição: Se $X$ e $Y$ são duas variáveis aleatórias, a covariância entre elas é definida por
$$\text{Cov(X, Y)} = E[(X-E(X))\cdot (Y-E(Y))]$$trabalhando ela, temos:
$$\text{Cov(X, Y)} = E[(XY) - XE(Y) - YE(X) + E(X)E(Y)]$$$$\text{Cov(X, Y)} = E(XY) - E(X)E(Y) - E(Y)E(X) + E(X)E(Y)$$$$\text{Cov(X, Y)} = E(XY) - E(X)E(Y)$$Pegando nosso exemplo, temos $E(X) = 1,5$, $E(Y) = 0,5$, $E(Z) = 1$ , $E(XY) = 1$ e $E(YZ) = 0,5$ então:
Caso 1: $$\text{Cov(X, Y)} = 1 - 1,5 \cdot 0,5 = 1 - 0,75 = 0,25$$
Caso 2: $$\text{Cov(Y, Z)} = 0,5 - 0,5 \cdot 1 = 0,5 - 0,5 = 0,0$$
Quando temos $\text{Cov(X, Y)} = 0$, temos que as variáveis aleatórias $X$ e $Y$ não são correlacionadas.
No caso 2, temos covariância igual a zero, e temos anteriormente que essas variáveis são independentes. Logo, se as variáveis $X$ e $Y$ são independentes, então $\text{Cov(X, Y)} = 0$.
OBS.: Por mais que duas variáveis independentes tenham $\text{Cov(X, Y)} = 0$, ter $\text{Cov(X, Y)} = 0$ não quer dizer que as variáveis sejam independentes. Logo, variáveis dependentes também podem ter $\text{Cov(X, Y)} = 0$
A partir da covariância, vamos introduzir uma medida que não depende das unidades de medida de $X$ e $Y$.
Definição: O coeficiente de correlação entre $X$ e $Y$ é:
$$\rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma(X) \sigma(Y)}$$O coeficiente de correlação satisfaz o intervalo:
$$-1 \leq \rho(X, Y) \leq 1$$O coeficiente de correlação é uma medida da relação linear entre $X$ e $Y$. Se $\rho(X, Y) = 1$ temos uma correlação linear positiva perfeita, o que quer dizer que quando a variável $X$ cresce, a variável $Y$ também cresce. Se $\rho(X, Y) = -1$ temos uma correlação linear negativa perfeita, o que quer dizer que quando a variável $X$ cresce, a variável $Y$ diminui. Se $\rho(X, Y) = 0$, não há relação linear entre as variáveis.