Sumário

1 Distribuição conjunta
2 Distribuição marginal e condicional
3 Funções de variáveis aleatórias
4 Covariância entre duas variáveis aleatórias
5 Referências

In [1]:

import pandas as pd
import numpy as np
from scipy import stats
import seaborn as sns
import matplotlib.pyplot as plt
from decimal import Decimal

import warnings  
warnings.filterwarnings('ignore')

In [2]:

df_salarios = pd.read_csv('dados/dados_tratados.csv').drop('Unnamed: 0', axis=1)
df_b3 = pd.read_csv('dados/b3_stocks_1994_2020.csv')
df_b3['datetime'] = pd.to_datetime(df_b3['datetime'])

Distribuição conjunta¶

Em muitas situações, ao descrevermos os resultados de um experimento, atribuímos a um mesmo ponto amostral os valores de duas ou mais variáveis aleatórias. Quando fazemos isso estamos com uma distribuição conjunta. As distribuições de probabilidade conjuntas apresentam os valores de probabilidade para duas (ou mais) variáveis simultaneamente. Quando estudamos conjuntamente 2 variáveis, dizemos que se trata de uma distribuição bidimensional ou de uma variável bidimensional. Quando houver mais variáveis, utilizamos o termo multidimensional.

Vamos a um exemplo

Exemplo 1

Temos 6 bolas, sendo 3 de cor azul e 3 de cor vermelha dentro de uma caixa e vamos retirar 3 bolas. Os resultados, que serão chamados de eventos, são esses. Nós queremos saber quantas bolas azuis nós podemos tirar e se bolas de mesma cor, tanto azul quanto vermelha, são tiradas em sequência.

A variável aleatória $X$ será a quantidade de bolas azuis tiradas naquele evento;
A variável aleatória $Y$ será se a primeira bola é azul, sendo 1 para a primeira bola ser azul e 0 para não ser;
A variável $Z$ será se há quantidade de variações na cor entre uma bola e outra. Vamos ver uma tabela.

Evento	Probabilidade	X	Y	Z
AAA	1/8	3	1	0
AAV	1/8	2	1	1
AVA	1/8	2	1	2
VAA	1/8	2	0	1
AVV	1/8	1	1	1
VAV	1/8	1	0	2
VVA	1/8	1	0	1
VVV	1/8	0	0	0

Nós temos as seguintes distribuições de probabilidade unidimensionais com a tabela acima

x	0	1	2	3					y	0	1					z	0	1	2
p(x)	1/8	3/8	3/8	1/8					p(y)	1/2	1/2						p(z)	1/4	1/2	1/4

Vamos agora analisar apenas as variáveis $X$ e $Y$. A tabela que criaremos é chamada de distribuição conjunta de $X$ e $Y$.

(x,y)	p(x,y)
(0,0)	1/8
(1,0)	2/8
(1,1)	1/8
(2,0)	1/8
(2,1)	2/8
(3,1)	1/8

Distribuição marginal e condicional¶

Vamos criar uma tabela de contingência:

Y \ X	0	1	2	3	p(y)
0	1/8	2/8	1/8	0	1/2
1	0	1/8	2/8	1/8	1/2
p(x)	1/8	3/8	3/8	1/8	1

sendo $p(x,y) = P(X = x, Y = y)$. Com a tabela acima criada, conseguimos ver as distribuições marginais. A primeira e última linha nos indicam a distribuição marginal de $X$, $(x, p(x))$, enquanto a primeira e última colunas nos indicam a distribuição marginal de $Y$, $(y, p(y))$. Exemplo, se quisermos saber a probabilidade de $X$ quando $X$ for 3, olhamos a tabela na última linha na coluna que pertence ao valor 3 e vemos que é $\frac{1}{8}$.

$$P(X = 3) = P(X = 3, Y = 0) + P(X = 3, Y = 1)$$$$P(X = 3) = 0 + \frac{1}{8}$$$$P(X = 3) = \frac{1}{8}$$

Portanto, para obter probabilidade marginais, criar uma tabela de contingência é uma boa saída.

Porém, as vezes, queremos saber as probabilidades baseado em alguma linha ou coluna específica. Logo, queremos essa probabilidade baseada em alguma condição. Por exemplo, em nosso exemplo, imagina que queremos saber qual é a distribuição do número de bolas azuis, sabendo que a primeira bola foi azul? Ou seja, queremos calcular a probabilidade $P(X = x|Y = 1)$. Da definição de probabilidade condicional, obtemos:

$$P(X = x | Y = 1) = \frac{P(X = x, Y = 1)}{P(Y = 1)}$$

onde:

x = 0, 1, 2, 3. (Todos os possíveis valores de x)

$$P(X = 2 | Y = 1) = \frac{P(X = 2, Y = 1)}{P(Y = 1)}$$$$P(X = 2 | Y = 1) = \frac{2/8}{1/2} = \frac{1}{2}$$

Criando uma tabela de distribuição condicional de $X$, dado que $Y = 1$, temos:

x	0	1	2	3
p(x)	0	1/4	1/2	1/4

Vemos que se somamos todos os valores temos 1, logo:

$$\sum_x p(X = x|Y = 1) = p(X = 0|Y = 1) + p(X = 1|Y = 1) + p(X = 2|Y = 1) + p(X = 3|Y = 1)$$

Generalizando esse exemplo, podemos definir como:

Definição: Seja $x_i$ um valor de X, tal que $P(X = x_i) = p(x_i) > 0$. A probabilidade

$$P(X = x_i| Y = y_j) = \frac{P(X = x_i, Y = y_j)}{P(Y = y_j)}, x = 1, ..., n$$

é denominada probabilidade condicional de $X = x_i$, dado que $Y = y_j$.

Voltando ao nosso exemplo, vamos calcular a média dessa distribuição, então nós temos

$$0 \cdot 0 + 1 \cdot \frac{1}{4} + 2 \cdot \frac{1}{2} + 3 \cdot \frac{1}{4} = 0 + 0,25 + 1 + 0,75 = 2$$

Então podemos definir como:

Definição:

A esperança condicional de $X$, dado que $Y = y_j$ é:

$$E(X|Y = y_j) = \sum_{i=1}^{n}x_i P(X = x_i|Y = y_i)$$

Exemplo 2:

Vamos agora fazer a distribuição conjunta de $Y$ e $Z$:

(y,z)	p(y,z)
(0,0)	1/8
(0,1)	2/8
(0,2)	1/8
(1,0)	1/8
(1,1)	2/8
(1,2)	1/8

Vamos criar uma tabela de contingência:

Y \ Z	0	1	2	p(y)
0	1/8	2/8	1/8	1/2
1	1/8	2/8	1/8	1/2
p(z)	1/4	2/4	1/4	1

Lembrando que a variável $Y$ é para a primeira bola ser azul e a variável $Z$ será se a quantidade de variações na cor entre uma bola e outra. Vemos que uma variável não interfere na outra, sendo elas independentes uma da outra.

Para variáveis independentes, definimos a probabilidade como:

Definição: As variáveis aleatórias $X$ e $Y$, são independentes, se, e somente se, para todo par de valores $(x_i, y_j)$ de $X$ e $Y$, tivermos que

$$P(X = x_i, Y = y_j) = P(X = x_i) \cdot P(Y = y_j)$$

Por exemplo:

$$P(Z = 0, Y = 0) = \frac{1}{4} \cdot \frac{1}{2} = \frac{1}{8}$$

Funções de variáveis aleatórias¶

Vamos novamente pegar as variáveis aleatórias $X$ e $Y$.

(x,y)	p(x,y)
(0,0)	1/8
(1,0)	2/8
(1,1)	1/8
(2,0)	1/8
(2,1)	2/8
(3,1)	1/8

A partir delas, vamos considerar a variável $X + Y$, ou a variável $X \cdot Y$. A variável $X + Y$ será a soma de cada valor de X e Y, enquanto a variável $X \cdot Y$ será o produto.

$$(X + y)(\omega) = X(\omega) + Y(\omega)$$$$(X \cdot y)(\omega) = X(\omega) \cdot Y(\omega)$$

(x,y)	X + Y	XY	p(x,y)
(0,0)	0	0	1/8
(0,1)	1	0	0
(1,0)	1	0	2/8
(1,1)	2	1	1/8
(2,0)	2	0	1/8
(2,1)	3	2	2/8
(3,0)	3	0	0
(3,1)	4	3	1/8

A partir da tabela acima, conseguimos as distribuições de $X + Y$ e $XY$

x + y	0	1	2	3	4
p(x)	1/8	2/8	2/8	2/8	1/8

xy	0	1	2	3	4
p(x)	4/8	1/8	1/8	1/8	1/8

Vamos calcular a esperança para as variáveis $X$, $Y$ e $Z$.

$$E(X) = 0 \cdot \frac{1}{8} + 1 \cdot \frac{3}{8} + 2 \cdot \frac{3}{8} + 3 \cdot \frac{1}{8} = 0 + \frac{3}{8} + \frac{6}{8} + \frac{3}{8} = \frac{12}{8} = 1,5$$$$E(Y) = 0 \cdot \frac{1}{2} + 1 \cdot \frac{1}{2} = 0 + \frac{1}{2} = 0,5$$$$E(Z) = 0 \cdot \frac{1}{4} + 1 \cdot \frac{2}{4} + 2 \cdot \frac{1}{4}= 0 + \frac{2}{4} + \frac{2}{4} = 1$$

E calculando a esperança da variável $X + Y$:

$$E(X + Y) = 0 \cdot \frac{1}{8} + 1 \cdot \frac{2}{8} + 2 \cdot \frac{2}{8} + 3 \cdot \frac{2}{8} + 4 \cdot \frac{1}{8}= 0 + \frac{2}{8} + \frac{4}{8} + \frac{6}{8} + \frac{4}{8} = \frac{16}{8} = 2$$

Logo, vemos que $E(X + Y) = E(X) + E(Y)$

Vamos calcular a esperança da variável $XY$

$$E(XY) = 0 \cdot \frac{4}{8} + 1 \cdot \frac{1}{8} + 2 \cdot \frac{2}{8} + 3 \cdot \frac{1}{8} = 0 + \frac{1}{8} + \frac{4}{8} + \frac{3}{8} = \frac{8}{8} = 1 $$

Logo, vemos que $E(XY) \neq E(X)E(Y)$

Vamos calcular a esperança da variável $YZ$

$$E(YZ) = 0 \cdot \frac{5}{8} + 1 \cdot \frac{2}{8} + 2 \cdot \frac{1}{8} = 0 + \frac{2}{8} + \frac{2}{8} = \frac{4}{8} = 0,5 $$

Logo, vemos que $E(YZ) = E(Y)E(Z)$

Isso nos indica que esse princípio só serve para variáveis independentes. Vamos definir:

Definição:

Se $X$ e $Y$ são variáveis aleatórias (dependentes ou independentes), então:

$$E(X + Y) = E(X) + E(Y)$$

Se $X$ e $Y$ são variáveis aleatórias independentes, então:

$$E(XY) = E(X) \cdot E(Y)$$

Covariância entre duas variáveis aleatórias¶

A covariância pode ser definida como o valor médio (esperança) do produto dos desvios $X$ e $Y$ em relação às suas respectivas médias.

Definição: Se $X$ e $Y$ são duas variáveis aleatórias, a covariância entre elas é definida por

$$\text{Cov(X, Y)} = E[(X-E(X))\cdot (Y-E(Y))]$$

trabalhando ela, temos:

$$\text{Cov(X, Y)} = E[(XY) - XE(Y) - YE(X) + E(X)E(Y)]$$$$\text{Cov(X, Y)} = E(XY) - E(X)E(Y) - E(Y)E(X) + E(X)E(Y)$$$$\text{Cov(X, Y)} = E(XY) - E(X)E(Y)$$

Pegando nosso exemplo, temos $E(X) = 1,5$, $E(Y) = 0,5$, $E(Z) = 1$ , $E(XY) = 1$ e $E(YZ) = 0,5$ então:

Caso 1: $$\text{Cov(X, Y)} = 1 - 1,5 \cdot 0,5 = 1 - 0,75 = 0,25$$

Caso 2: $$\text{Cov(Y, Z)} = 0,5 - 0,5 \cdot 1 = 0,5 - 0,5 = 0,0$$

Quando temos $\text{Cov(X, Y)} = 0$, temos que as variáveis aleatórias $X$ e $Y$ não são correlacionadas.

No caso 2, temos covariância igual a zero, e temos anteriormente que essas variáveis são independentes. Logo, se as variáveis $X$ e $Y$ são independentes, então $\text{Cov(X, Y)} = 0$.

OBS.: Por mais que duas variáveis independentes tenham $\text{Cov(X, Y)} = 0$, ter $\text{Cov(X, Y)} = 0$ não quer dizer que as variáveis sejam independentes. Logo, variáveis dependentes também podem ter $\text{Cov(X, Y)} = 0$

A partir da covariância, vamos introduzir uma medida que não depende das unidades de medida de $X$ e $Y$.

Definição: O coeficiente de correlação entre $X$ e $Y$ é:

$$\rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma(X) \sigma(Y)}$$

O coeficiente de correlação satisfaz o intervalo:

$$-1 \leq \rho(X, Y) \leq 1$$

O coeficiente de correlação é uma medida da relação linear entre $X$ e $Y$. Se $\rho(X, Y) = 1$ temos uma correlação linear positiva perfeita, o que quer dizer que quando a variável $X$ cresce, a variável $Y$ também cresce. Se $\rho(X, Y) = -1$ temos uma correlação linear negativa perfeita, o que quer dizer que quando a variável $X$ cresce, a variável $Y$ diminui. Se $\rho(X, Y) = 0$, não há relação linear entre as variáveis.

Referências¶

Morettin, P. A., Bussab, W. O. Estatística Básica, 6. ed. – São Paulo : Saraiva, 2010.

In [ ]:

$\leftarrow$Ir para artigo anterior

Voltar ao site

Voltar à página de estatística

Ir para próximo artigo $\rightarrow$

Evento	Probabilidade	X	Y	Z
AAA	1/8	3	1	0
AAV	1/8	2	1	1
AVA	1/8	2	1	2
VAA	1/8	2	0	1
AVV	1/8	1	1	1
VAV	1/8	1	0	2
VVA	1/8	1	0	1
VVV	1/8	0	0	0

Evento	Probabilidade	X	Y	Z
AAA	1/8	3	1	0
AAV	1/8	2	1	1
AVA	1/8	2	1	2
VAA	1/8	2	0	1
AVV	1/8	1	1	1
VAV	1/8	1	0	2
VVA	1/8	1	0	1
VVV	1/8	0	0	0

Evento	Probabilidade	X	Y	Z
AAA	1/8	3	1	0
AAV	1/8	2	1	1
AVA	1/8	2	1	2
VAA	1/8	2	0	1
AVV	1/8	1	1	1
VAV	1/8	1	0	2
VVA	1/8	1	0	1
VVV	1/8	0	0	0