Sumário

  • 1  Introdução
  • 2  Propriedades
    • 2.1  Intervalo
    • 2.2  Regra da adição
      • 2.2.1  Eventos não mutuamente exclusivos
      • 2.2.2  Eventos mutuamente exclusivos
    • 2.3  Regra da multiplicação
      • 2.3.1  Eventos independentes
      • 2.3.2  Eventos dependentes
    • 2.4  Combinação
  • 3  Probabilidade condicional e independência
    • 3.1  Condicional
    • 3.2  Independente
  • 4  Teorema de Bayes
  • 5  Referências
In [1]:
import pandas as pd
import numpy as np
from scipy import stats
import seaborn as sns
import matplotlib.pyplot as plt
import pyspark.sql.functions as F

import warnings  
warnings.filterwarnings('ignore')
In [2]:
df_salarios = pd.read_csv('dados/dados_tratados.csv').drop('Unnamed: 0', axis=1)
df_b3 = pd.read_csv('dados/b3_stocks_1994_2020.csv')
df_b3['datetime'] = pd.to_datetime(df_b3['datetime'])

Introdução¶

Vimos que a análise de um conjunto de dados por meio de técnicas numéricas e gráficas permite que tenhamos uma boa ideia da distribuição desse conjunto. Em particular, vimos que a distribuição de frequências é um excelente instrumento para avaliarmos a variabilidade dos dados de um fenômeno aleatório. Vamos criar novamente a distribuição de frequências que já vimos antes.

In [3]:
tabela_frequencia = df_salarios[['nivel_experiencia', 'salario']].groupby('nivel_experiencia').agg({'salario': 'count'})
tabela_frequencia.columns = ['frequencia_observada']
tabela_frequencia['frequencia_relativa'] = tabela_frequencia['frequencia_observada'] / tabela_frequencia['frequencia_observada'].sum()
tabela_frequencia["frequencia_acumulada"] = tabela_frequencia["frequencia_relativa"].cumsum()
tabela_frequencia
Out[3]:
frequencia_observada frequencia_relativa frequencia_acumulada
nivel_experiencia
Diretor 114 0.030360 0.030360
Junior 320 0.085220 0.115579
Pleno 805 0.214381 0.329960
Senior/Especialista 2516 0.670040 1.000000

Podemos ver acima que as frequências relativas são as estimativas da probabilidade da ocorrência de um determinado evento, no nosso caso é saber qual a probabilidade de uma pessoa ter um nível de experiência. Com suposições adequadas, e sem observarmos diretamente o fenômeno aleatório de interesse, podemos criar um modelo teórico que reproduza de maneira razoável a distribuição das frequências, quando o fenômeno é observado diretamente. Esses modelos são chamados modelos probabilísticos.

Vamos ver um exemplo:

Exemplo 1: Numa lista de 10 esportistas, um deles irá ganhar o premio de esportista do ano. 3 são representantes do Brasil, 2 da Inglaterra, 4 da Alemanha e 1 da Argentina. Queremos saber a probabilidade de o ganhador ser de algum desses países. A partir das informações, podemos observar que:

  1. Existem 4 possibilidades (Brasil, Inglatera, Alemanha, Argentina)
  2. Vamos supor que o sorteio é honesto e que cada pessoa tenha igual chance de ser sorteada.

Logo, teremos o modelo probabilístico:

País Brasil Inglaterra Alemanha Argentina Total
Frequência teórica $\frac{3}{10}$ $\frac{2}{10}$ $\frac{4}{10}$ $\frac{1}{10}$ 1

Com nosso exemplo, conseguimos averiguar que todo experimento que envolva um elemento casual necessita para que seu modelo probabilístico seja especificado:

  1. Um espaço amostral, que é uma enumeração de todos os resultados possíveis do experimento. O espaço amostral será definido como $\Omega$
$$\Omega = \{\omega_1, \omega_2, ..., \omega_n\}$$
  1. Uma probabilidade, definida como $P(\omega)$, para cada ponto amostral, de forma que podemos encontrar a probabilidade $P(A)$ de qualquer subconjunto A de $\Omega$. A probabilidade $P(A)$ é a probabilidade de um evento aleatório.

Exemplo 2: Lançamos uma moeda duas vezes. Qual a probabilidade de cair apenas faces iguais?

Com o que temos do enunciado acima, podemos verificar que nosso espaço amostral terá 4 possibilidades

$\Omega = \{\omega_1, \omega_2, \omega_3, \omega_4 \}$

onde $\omega_1 = \text{(Cara, Cara)}$, $\omega_2 = \text{(Cara, Coroa)}$, $\omega_3 = \text{(Coroa, Cara)}$, $\omega_4 = \text{(Coroa, Coroa)}$

Considerando que a moeda não esteja viciada, temos:

Lançamento Cara, Cara Cara, Coroa Coroa, Cara Coroa, Coroa Total
Frequência teórica $\frac{1}{4}$ $\frac{1}{4}$ $\frac{1}{4}$ $\frac{1}{4}$ 1

Logo, sabendo que cada chance possui $\frac{1}{4}$ de probabilidade de ocorrer, e chamamos de $A$ o evento que cair apenas faces iguais nos dois lançamentos, temos:

$$P(A) = P\{\omega_1, \omega_4 \} = \frac{1}{4} + \frac{1}{4} = \frac{1}{2}$$

Se A for qualquer evento de $\Omega$, então : $$P(A) = \sum_{j}P(\omega_j)$$

onde são somados todos os pontos amostrais $\omega_j \in A$

Voltando a nossa tabela de frequência que nos dá o nível de experiência, nós temos que a probabilidade de ser um profissional com nível de experiência Pleno é de $21,4\%$. Sabendo que o evento $A$ é o profissional ser Pleno, temos:

$$P(A) = P(Pleno) = \frac{805}{3755} = 0,214 $$

Onde o resultado encontrado é igual ao resultado calculado na frequência relativa.

Uma situação que podemos ter é quando temos um evento que seja um espaço amostral contínuo. Vamos ver um exemplo

Exemplo 3: Para os salários da área de dados (df_salarios), qual a probabilidade de o salário ser igual ou maior 50 mil dálares e menor que 100 mil dólares, Logo:

$$\Omega = \{\text{salário} \in \mathbb{R}: 50 \text{mil} \leq \text{salário} < 100 \text{mil}\}$$
In [4]:
df_salarios_agrupados = df_salarios.copy()
bins = [0, 50000, 100000, 1000000]
legendas = ['Abaixo de 50 mil', 'Entre 50000 e 100000 mil', 'Acima de 100000 mil']
df_salarios_agrupados['salario_em_dolares_agrupados'] = pd.cut(df_salarios_agrupados['salario_em_dolares'], bins, labels=legendas, right=False)
In [5]:
tabela_frequencia_salarios = df_salarios_agrupados[['salario_em_dolares_agrupados', 'salario_em_dolares']].groupby('salario_em_dolares_agrupados').agg({'salario_em_dolares': 'count'})
tabela_frequencia_salarios.columns = ['frequencia_observada']
tabela_frequencia_salarios
Out[5]:
frequencia_observada
salario_em_dolares_agrupados
Abaixo de 50 mil 264
Entre 50000 e 100000 mil 727
Acima de 100000 mil 2764

Com a tabela de frequência acima, temos:

$$P(A) = \frac{727}{3755} = 0,194 = 19,4\%$$

Então a probabilidade de alguém ter o salário entre 50 mil e 100 mil é de 19,4%. Lembrando que pode ser qualquer salário no intervalo $50 \text{mil} \leq \text{salário} < 100 \text{mil}$

Propriedades¶

Vimos que um modelo probabilístico é um modelo teórico para as frequências relativas. Logo, podemos obter algumas propriedades das probabilidades a partir das propriedades das frequências relativas.

Intervalo¶

Como a frequência relativa varia entre 0 e 1, as probabilidades também variarão: $$0 < P(A) < 1$$ Para qualquer evento de $A$.

Regra da adição¶

Eventos não mutuamente exclusivos¶

Vamos criar uma tabela de contingência para nossos dados de salário, avaliando nível de experiência e tipo de contrato.

In [6]:
dcf = pd.crosstab(df_salarios['nivel_experiencia'], df_salarios['tipo_de_contrato'])
dcf_total = dcf.copy()
dcf_total['Total'] = dcf.sum(axis=1, numeric_only=True)
dcf2 = pd.DataFrame({dcf_total.columns[0]: dcf_total['Contrato'].sum(),
                     dcf_total.columns[1]: dcf_total['Freelance'].sum(),
                     dcf_total.columns[2]: dcf_total['Tempo integral'].sum(),
                     dcf_total.columns[3]: dcf_total['Tempo parcial'].sum(),
                     dcf_total.columns[4]: dcf_total['Total'].sum()}, index=['Total'])
dcf_total = dcf_total.append(dcf2)
dcf_total
Out[6]:
Contrato Freelance Tempo integral Tempo parcial Total
Diretor 1 0 113 0 114
Junior 2 2 302 14 320
Pleno 5 5 792 3 805
Senior/Especialista 2 3 2511 0 2516
Total 10 10 3718 17 3755

Vamos considerar os eventos Tempo integral e Pleno. Com esses eventos, podemos considerar dois novos eventos.

  • Tempo integral $\cup$ pleno (tempo integral ou pleno), chamamos de união de tempo integral e pleno, é quando pelo menos um dos eventos ocorre.

  • Tempo integral $\cap$ pleno (tempo integral e pleno), chamamos de intersecção de tempo integral e pleno, é quando ambos os eventos ocorrem simultaneamente.

Vemos que a $P(\text{Tempo integral}) = \frac{3718}{3755}$ e $P(\text{Pleno}) = \frac{805}{3755})$. Vamos calcular $P(\text{Tempo integral} \cup \text{Pleno})$

$$P(\text{Tempo integral} \cup \text{Pleno}) = P(\text{Tempo integral}) + P(\text{Pleno}) = \frac{3718}{3755} + \frac{805}{3755} = \frac{4523}{3755}$$

Temos um resultado improvável, já que temos um valor maior que as observações. Isso se deve ao fato de estarmos considerando duas vezes os profissionais que são plenos e trabalham em tempo integral. Logo o certo é:

$$P(\text{Tempo integral} \cup \text{Pleno}) = P(\text{Tempo integral}) + P(\text{Pleno}) - P(\text{Tempo integral} \cap \text{Pleno})= \frac{3718}{3755} + \frac{805}{3755} - \frac{792}{3755} = \frac{3731}{3755}$$

Nesse caso chamamos os eventos de não mutuamente exclusivos, pois podemos ter ambos ao mesmo tempo.

Para evento não mutuamente exclusivos temos como fórmula:

$$P(A \cup B) = P(A) + P(B) - P(A \cap B)$$

Eventos mutuamente exclusivos¶

Vamos considerar os eventos Júnior e Pleno. Como esse eventos, podemos considerar dois novos eventos.

  • Júnior $\cup$ pleno (júnior ou pleno), chamamos de união de júnior e pleno, é quando pelo menos um dos eventos ocorre.

  • Júnior $\cap$ pleno (júnior e pleno), chamamos de intersecção de júnior e pleno, é quando ambos os eventos ocorrem simultaneamente.

Vemos que a $P(\text{Júnior}) = \frac{302}{3755}$ e $P(\text{Pleno}) = \frac{805}{3755}$. Vamos calcular $P(\text{Júnior} \cup \text{Pleno})$

$$P(\text{Júnior} \cup \text{Pleno}) = P(\text{Júnior}) + P(\text{Pleno}) = \frac{302}{3755} + \frac{805}{3755} = \frac{1107}{3755}$$

Temos o resultado para a união. Só que e quando o profissional for junior e pleno? Vamos ver na tabela:

In [7]:
dcf_total
Out[7]:
Contrato Freelance Tempo integral Tempo parcial Total
Diretor 1 0 113 0 114
Junior 2 2 302 14 320
Pleno 5 5 792 3 805
Senior/Especialista 2 3 2511 0 2516
Total 10 10 3718 17 3755

Vemos que não existe profissionais que são júnior e pleno ao mesmo tempo, isso se deve a um nível de experiência excluir o outro, não podendo ter dois ao mesmo tempo. Logo:

$P(\text{Junior} \cap \text{Pleno}) = 0$

Portanto, voltando a para a equação dos eventos mutuamente exclusivos, teremos:

$$P(A \cup B) = P(A) + P(B) - P(A \cap B)$$

Sabendo que não a intersecção entre os conjuntos, sendo $A \cap B = \emptyset$, então $P(A \cap B) = 0$, temos

$$P(A \cup B) = P(A) + P(B)$$

Nesse caso chamamos os eventos de mutuamente exclusivos, pois podemos ter apenas um deles por vez.

Regra da multiplicação¶

Vamos criar uma tabela de contingência de ações e vamos usar a tabela criada na regra da adição.

In [8]:
google = df_b3[df_b3['ticker'] == 'GOGL34']
bins = [0, 100, 200, 10000]
legendas = ['De 0 à 100', 'De 100 à 200', 'Acima de 200']
google['open_agrupados'] = pd.cut(google['open'], bins, labels=legendas, right=False)
In [9]:
tabela_frequencia_google = google[['open_agrupados', 'open']].groupby('open_agrupados').agg({'open': 'count'})
tabela_frequencia_google.columns = ['frequencia_observada']

Eventos independentes¶

Vamos ver com um exemplo para facilitar o entendimento

Exemplo 4: Qual a probabilidade de uma ação do Google ter seu valor acima de 200 reais e um salário da área de dados está contido entre 50 mil e 100 mil dólares/ano?

Temos o evento $A$, que é o valor da ação do Google está acima de 200 reais. E temos o evento B que é o valor do salário de um funcionário da área de dados está contido entre 50 mil e 100 mil dólares/ano.

Para responder esse exemplo vamos ver as duas tabelas criadas.

In [10]:
tabela_frequencia_google
Out[10]:
frequencia_observada
open_agrupados
De 0 à 100 77
De 100 à 200 760
Acima de 200 275
In [11]:
tabela_frequencia_salarios
Out[11]:
frequencia_observada
salario_em_dolares_agrupados
Abaixo de 50 mil 264
Entre 50000 e 100000 mil 727
Acima de 100000 mil 2764

Logo temos que:

$$P(A) = \frac{275}{1112} = 0,247$$

e

$$P(B) = \frac{727}{3755} = 0,194$$

Como esses eventos não dependem de si, para achar a probabilidade de uma ação do Google está com seu valor acima de 200 reais e um salário da área de dados está contido entre 50 mil e 100 mil dólares/ano, temos que multiplicar as probabilidades achadas.

$$P(A)P(B)= 0,274 \cdot 0,194 = 0,053$$

Formalizando:

Quando temos dois eventos independentes, então a probabilidade da ocorrência de ambos os eventos será igual ao produto das probabilidade individuais.

$$P(\text{A e B}) = P(A)\cdot P(B)$$

Eventos dependentes¶

Vamos ver com um exemplo para facilitar o entendimento

Exemplo 5: Uma empresa teve acesso a pesquisa de salários da área de dados e quer contratar dois profissionais na faixa salarial entre 50 mil e 100 mil dólares/ano e que sejam de nível pleno. Qual a probabilidade de aleatoriamente eles escolherem dois profissionais com essas características?

Para responder esse exemplo vamos criar uma tabela de frequência.

In [12]:
tabela_frequencia_salarios_nivel = df_salarios_agrupados[['salario_em_dolares_agrupados', 'salario_em_dolares', 'nivel_experiencia']].groupby(['salario_em_dolares_agrupados', 'nivel_experiencia']).agg({'salario_em_dolares': 'count'})
tabela_frequencia_salarios_nivel.columns = ['frequencia_observada']
tabela_frequencia_salarios_nivel
Out[12]:
frequencia_observada
salario_em_dolares_agrupados nivel_experiencia
Abaixo de 50 mil Diretor 1
Junior 99
Pleno 104
Senior/Especialista 60
Entre 50000 e 100000 mil Diretor 5
Junior 118
Pleno 290
Senior/Especialista 314
Acima de 100000 mil Diretor 108
Junior 103
Pleno 411
Senior/Especialista 2142

Temos que 290 profissionais ganham o salário entre 50 mil e 100 mil dólares/ano e são de nível pleno. Logo pro primeiro profissional:

$$P(A) = \frac{290}{3755} = 0,077$$

Contudo, para o segundo a probabilidade muda, já que agora temos um funcionário a menos.

$$P(B|A) = \frac{289}{3754} = 0,076$$

Isso demonstra que a probabilidade do segundo depende da probabilidade do primeiro.

Formalizando:

$$P(\text{A e B}) = P(A) \cdot P(B|A)$$

Onde $P(B|A)$ lê-se como "a probabilidade de B sabendo que A já ocorreu" ou "a probabilidade de B dado A"

Logo no nosso exemplo acima teríamos

$$P(\text{A e B}) = \frac{290}{3755} \cdot \frac{289}{3754} = 0,006$$

Com isso vemos que a probabilidade é de 0,6% para conseguir aleatoriamente dois profissionais com as características desejadas.

Combinação¶

As combinações são subconjuntos onde a ordem dos elementos não é importante, entretanto, são caracterizadas pela natureza dos mesmos.

Sua fórmula é dada por

$$C_{k, x} = {n \choose k} = \frac{n!}{x!(n-x)!}$$

onde

  • n: Número total de elementos; e
  • k: Número de elementos escolhidos.

Vamos a um exemplo:

Exemplo 6:

Uma investidor quer comprar 5 ações do Google, sendo 2 ações com o preço entre 0 e 100 reais e 3 com o preço acima de 200 reais. Qual a probabilidade do investidor comprar essas ações, de modo que a ordem seja irrelevante?

In [13]:
tabela_frequencia_google
Out[13]:
frequencia_observada
open_agrupados
De 0 à 100 77
De 100 à 200 760
Acima de 200 275

Temos 77 opções de escolha para ações de 0 à 100 reais e 275 para ações acima de 200 reais.

A combinação de 0 à 100 reais é:

$$C_{77, 2} = {77 \choose 2} = \frac{77!}{2!(77-2)!} = 2926$$

A combinação para ações acima de 200 reais é:

$$C_{275, 3} = {275 \choose 3} = \frac{275!}{3!(275-3)!} = 3428425$$

E a combinação total é:

$$C_{1112, 5} = {1112 \choose 5} = \frac{1112!}{5!(1112-5)!} = 14042094310000$$

Com isso conseguimos calcular a probabilidade, que é:

$$P(A) = \frac{2926 \cdot 3428425}{14042094310000} = 0,000714 = 0,07\%$$

Temos que a probabilidade de o investidor conseguir aleatoriamente uma combinação de 5 ações, 2 abaixo de 100 reais e 3 acima de duzentos é de 0,07%.

Probabilidade condicional e independência¶

Condicional¶

Vamos voltar a analisar nosso exemplo da tabela de contingência do nível de experiência e tipo de contrato.

In [14]:
dcf_total
Out[14]:
Contrato Freelance Tempo integral Tempo parcial Total
Diretor 1 0 113 0 114
Junior 2 2 302 14 320
Pleno 5 5 792 3 805
Senior/Especialista 2 3 2511 0 2516
Total 10 10 3718 17 3755

Exemplo 7:

Vamos pegar um profissional, escolhido aleatoriamente, que trabalhe em tempo integral, a probabilidade que ele seja sênior é de $\frac{2511}{3718}$, pois dos 3718 profissionais que trabalham em tempo integral, 2511 são de nível sênior. Escrevemos então:

$$P(\text{sênior|tempo integral}) = \frac{2511}{3718}$$

Formalizando:

Para dois eventos quaisquer $A$ e $B$, sendo $P(B) > 0$, definimos a probabilidade condicional de $A$ dado $B$, $P(A|B)$, como sendo:

$$P(A|B) = \frac{P(A\cap B)}{P(B)}$$

No nosso exemplo acima, sendo $B$ profissionais que trabalham em tempo integral e $A$ profissionais de nível sênior, temos:

$$P(A|B) = \frac{\frac{2511}{3755}}{\frac{3718}{3755}} = \frac{2511}{3755} \cdot \frac{3755}{3718} = \frac{2511}{3718} = 0,675$$

Da equação 9, podemos obter a regra do produto de probabilidades

$$P(A \cap B) = P(B) \cdot P(A|B)$$

Se em nosso exemplo, depois de escolher um profissional de nível sênior, fossemos escolher um de nível pleno, teríamos:

$$P(\text{tempo integral} \cap \text{sênior} \cap \text{pleno}) = P(\text{tempo integral}) \cdot P(\text{sênior|tempo integral}) \cdot P(\text{pleno|tempo integral} \cap \text{sênior})$$$$P(\text{tempo integral} \cap \text{sênior} \cap \text{pleno}) = \frac{3718}{3755} \cdot \frac{2511}{3718} \cdot \frac{792}{3717} = 0,990 \cdot 0,675 \cdot 0,213 = 0,142$$

Então, a fórmula para três eventos é: $$P(A \cap B \cap C) = P(A) \cdot P(B|A) \cdot P(C|A \cap B)$$

Essa relação pode ser estendida para um número finito de eventos.

Independente¶

Vamos novamente usar a tabela de contingência anterior.

In [15]:
dcf_total
Out[15]:
Contrato Freelance Tempo integral Tempo parcial Total
Diretor 1 0 113 0 114
Junior 2 2 302 14 320
Pleno 5 5 792 3 805
Senior/Especialista 2 3 2511 0 2516
Total 10 10 3718 17 3755

Exemplo 8:

Vamos agora imaginar que todos esses profissionais são de uma mesma empresa e ela está fazendo uma premiação, onde ela entregará dois prêmios. O candidato que ganhar o primeiro prêmio, também pode concorrer ao segundo. A probabilidade que esse(s) profissional(is) seja(m) sênior(es) é:

$$P(B) = P(\text{Sênior}_1 ) = \frac{2516}{3755}$$$$P(A|B)= P(\text{Sênior}_2|\text{Senior}_1) = \frac{2516}{3755} = P(A)$$

A probabilidade $P(A|B)$ é igual a $P(A)$ devido ao fato de "repormos" o candidato após a primeira premiação, fazendo com que o evento $A$ não seja condicionado ao evento $B$. Esse tipo de probabilidade chamamos de independente, pois a probabilidade posterior independe da probabilidade anterior.

Sua fórmula é dada por:

$$P(A\cap B) = P(A) \cdot P(B)$$

Em nosso exemplo o resultado seria:

$$P(A\cap B) = P(A) \cdot P(B) = \frac{2516}{3755} \cdot \frac{2516}{3755} = \frac{6330256}{14100025} = 0,45$$

Se em nosso exemplo, depois do segundo prêmio, houvesse um terceiro para um profissional nível pleno, ficaria:

$$P(A) = P(\text{Senior}_1 ) = \frac{2516}{3755}$$$$P(B) = P(\text{Senior}_2|\text{Senior}_1) = \frac{2516}{3755} = P(A)$$$$P(C) = P(\text{Pleno}|\text{Senior}_1 \cap \text{Senior}_2 ) = \frac{805}{3755}$$$$P(A\cap B \cap C) = P(A) \cdot P(B) \cdot P(C) = \frac{2516}{3755} \cdot \frac{2516}{3755} \cdot \frac{805}{3755}= 0,096$$

Essa relação pode ser estendida para um número finito de eventos.

Teorema de Bayes¶

O Teorema de Bayes é uma das relações mais importantes de probabilidades condicionais.

A versão mais simples desse teorema pode ser escrita como:

$$P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{P(A) \cdot P(B|A)}{P(B)}$$

Vamos entender com um exemplo.

Vamos ver nossa tabela de contingência usada anteriormente.

In [16]:
dcf_total
Out[16]:
Contrato Freelance Tempo integral Tempo parcial Total
Diretor 1 0 113 0 114
Junior 2 2 302 14 320
Pleno 5 5 792 3 805
Senior/Especialista 2 3 2511 0 2516
Total 10 10 3718 17 3755

Exemplo 9:

Temos quatro tipos de formas de contratos, cada um com quatro possibilidade de níveis. Qual a probabilidade de um contrato ser de tempo parcial sabendo que o nível de experiência escolhido foi júnior?

Bom, sabemos que:

$$P(\text{Contrato}) = \frac{1}{4}, P(\text{Júnior|Contrato}) = \frac{2}{10}$$$$P(\text{Freelance}) = \frac{1}{4}, P(\text{Júnior|Freelance}) = \frac{2}{10}$$$$P(\text{Tempo integral}) = \frac{1}{4}, P(\text{Júnior|Tempo integral}) = \frac{302}{3718}$$$$P(\text{Tempo parcial}) = \frac{1}{4}, P(\text{Júnior|Tempo parcial}) = \frac{14}{17}$$

Usando o teorema de Bayes, temos:

$$P(\text{Tempo Parcial|Júnior}) = \frac{P(\text{Tempo Parcial}) \cdot P(\text{Júnior|Tempo Parcial})}{P(\text{Júnior})}$$

Precisamos achar o valor de ${P(\text{Júnior})}$. Como os tipos de contratos são mutuamente exclusivos, e reunidos formam o espaço amostral completo, podemos decompor os profissionais juniores na reunião de quatro outros, também mutuamente exclusivos:

$${P(\text{Júnior})} = P(\text{Contrato} \cap \text{Júnior}) \cup P(\text{Freelance} \cap \text{Júnior}) \cup P(\text{Tempo integral} \cap \text{Júnior}) \cup P(\text{Tempo parcial} \cap \text{Júnior})$$

Lembrando a regra do produto das probabilidades, temos:

$$P(A \cap B) = P(B) \cdot P(A|B)$$

Substituindo ela no nosso problema

$${P(\text{Junior})} = P(\text{Contrato}) \cdot P(\text{Junior|Contrato}) + P(\text{Freelance}) \cdot P(\text{Junior|Freelance}) + P(\text{Tempo integral}) \cdot P(\text{Junior|Tempo integral}) + P(\text{Tempo parcial}) \cdot P(\text{Junior|Tempo parcial})$$

Como temos todas as probabilidade já calculadas, só substituir:

$${P(\text{Junior})} = \frac{1}{4} \cdot \frac{2}{10} + \frac{1}{4} \cdot \frac{2}{10} + \frac{1}{4} \cdot \frac{302}{3718} + \frac{1}{4} \cdot \frac{14}{17}$$$${P(\text{Junior})} = 0,33$$

substituindo no teorema de Bayes.

$$P(\text{Tempo Parcial|Júnior}) = \frac{0,25 \cdot 0,82}{0,33} = 0,62$$

Logo, temos 62% de probabilidade de o contrato ser tempo parcial, sendo o nível do profissional júnior.

Formalizando o que vimos:

Seja $\{C_1, C_2, ..., C_n\}$ uma partição do espaço amostral $\Omega$, então:

$C_i \cap C_j = \emptyset$, para todo $ i \neq j$, então $C_1 \cup C_2 \cup ... \cup C_n = \Omega$

A probabilidade de ocorrência do evento $C_i$, supondo-se a ocorrência do evento $A$ é:

$$P(C_i|A) = \frac{P(C_i)\cdot P(A|C_i)}{\sum_{j=1}^{n}P(C_j)\cdot P(A|C_j)}$$

onde:

  • $C_i, ..., C_n$ é um conjunto de hipóteses, sendo somente uma verdadeira.

Essa é a forma generalizada do teorema de Bayes.

Vamos a mais um exemplo para assimilarmos.

Exemplo 10:

As ações de uma empresa fecharam em queda no dia 29/06/2023, sendo que um banco de investimentos previu que para o próximo dia a probabilidade de ter uma nova queda é de 10%. Porém, no final do dia o dólar teve uma alta, e baseado em experiências anteriores, a probabilidade de uma queda na ação quando há uma alta do dólar é de 25%. Já nos dias que o preço da ação subiu, apenas 3% das vezes foi em alta do dólar. Como podemos atualizar a probabilidade de queda para o dia seguinte?

Chamaremos de $Q$ o evento de queda da ação. $A$ será a alta do dólar.

Bom, primeiro devemos entender as nossas variáveis

  • $P(Q) = 0,10$ = 10% de probabilidade de queda prevista para o dia seguinte
  • $P(Q^{c}) = 0,9$ = 90% de probabilidade de aumento previsto para o dia seguinte
  • $P(A|Q) = 0.25$ = 25% de queda quando tem alta do dólar
  • $P(A|Q^{c}) = 0.03$ = 3% de aumento quando tem alta do dólar
$$P(Q|A) = \frac{P(Q)\cdot P(A|Q)}{P(Q)\cdot P(A|Q) + P(Q^{c})\cdot P(A|Q^{c})} = \frac{0,10 \cdot 0,25}{(0,10 \cdot 0,25) + (0,9 \cdot 0,03)} = 0,48 = 48\%$$

Com a nova informação aumenta a probabilidade de queda da ação da empresa de 10% para 48%.

Porém, foi noticiado que um determinado fundo irá investir alguns milhões na empresa.

Sabe-se que quando foi noticiada que houve um aumento do dólar e investimento na empresa, as ações caíram 10% das vezes, enquanto, sabe-se que quando foi noticiada que houve aumento do dólar e investimento na empresa as ações subiram 70% da vezes. Chamaremos o evento de investimento de $I$

Temos agora:

  • $P(I|Q, A) = 0,10$ = 10% de probabilidade de queda prevista para o dia seguinte.
  • $P(I|Q^{c}, A) = 0,7$ = 70% de probabilidade de aumento previsto para o dia seguinte
$$P(Q|A) = \frac{P(Q|A)\cdot P(I|Q, A)}{P(Q|A)\cdot P(I|Q, A) + P(I|Q^{c})\cdot P(I|Q^{c}, A)} = \frac{0,48 \cdot 0,10}{(0,48 \cdot 0,10) + (0,52 \cdot 0,70)} = 0,11 = 11\%$$

Agora temos a probabilidade de queda no dia seguinte de 11%. O teorema de Bayes nos permite fazer as atualizações nas probabilidades ao longo de novas informações dos dados.

Referências¶

  1. Morettin, P. A., Bussab, W. O. Estatística Básica, 6. ed. – São Paulo : Saraiva, 2010.

In [ ]:
 
$\leftarrow$Ir para artigo anterior Voltar ao site Voltar à página de estatística Ir para próximo artigo $\rightarrow$