import pandas as pd
import numpy as np
from scipy import stats
import seaborn as sns
import matplotlib.pyplot as plt
import pyspark.sql.functions as F
import warnings
warnings.filterwarnings('ignore')
df_salarios = pd.read_csv('dados/dados_tratados.csv').drop('Unnamed: 0', axis=1)
df_b3 = pd.read_csv('dados/b3_stocks_1994_2020.csv')
df_b3['datetime'] = pd.to_datetime(df_b3['datetime'])
Vimos que a análise de um conjunto de dados por meio de técnicas numéricas e gráficas permite que tenhamos uma boa ideia da distribuição desse conjunto. Em particular, vimos que a distribuição de frequências é um excelente instrumento para avaliarmos a variabilidade dos dados de um fenômeno aleatório. Vamos criar novamente a distribuição de frequências que já vimos antes.
tabela_frequencia = df_salarios[['nivel_experiencia', 'salario']].groupby('nivel_experiencia').agg({'salario': 'count'})
tabela_frequencia.columns = ['frequencia_observada']
tabela_frequencia['frequencia_relativa'] = tabela_frequencia['frequencia_observada'] / tabela_frequencia['frequencia_observada'].sum()
tabela_frequencia["frequencia_acumulada"] = tabela_frequencia["frequencia_relativa"].cumsum()
tabela_frequencia
frequencia_observada | frequencia_relativa | frequencia_acumulada | |
---|---|---|---|
nivel_experiencia | |||
Diretor | 114 | 0.030360 | 0.030360 |
Junior | 320 | 0.085220 | 0.115579 |
Pleno | 805 | 0.214381 | 0.329960 |
Senior/Especialista | 2516 | 0.670040 | 1.000000 |
Podemos ver acima que as frequências relativas são as estimativas da probabilidade da ocorrência de um determinado evento, no nosso caso é saber qual a probabilidade de uma pessoa ter um nível de experiência. Com suposições adequadas, e sem observarmos diretamente o fenômeno aleatório de interesse, podemos criar um modelo teórico que reproduza de maneira razoável a distribuição das frequências, quando o fenômeno é observado diretamente. Esses modelos são chamados modelos probabilísticos.
Vamos ver um exemplo:
Exemplo 1: Numa lista de 10 esportistas, um deles irá ganhar o premio de esportista do ano. 3 são representantes do Brasil, 2 da Inglaterra, 4 da Alemanha e 1 da Argentina. Queremos saber a probabilidade de o ganhador ser de algum desses países. A partir das informações, podemos observar que:
Logo, teremos o modelo probabilístico:
País | Brasil | Inglaterra | Alemanha | Argentina | Total |
---|---|---|---|---|---|
Frequência teórica | $\frac{3}{10}$ | $\frac{2}{10}$ | $\frac{4}{10}$ | $\frac{1}{10}$ | 1 |
Com nosso exemplo, conseguimos averiguar que todo experimento que envolva um elemento casual necessita para que seu modelo probabilístico seja especificado:
Exemplo 2: Lançamos uma moeda duas vezes. Qual a probabilidade de cair apenas faces iguais?
Com o que temos do enunciado acima, podemos verificar que nosso espaço amostral terá 4 possibilidades
$\Omega = \{\omega_1, \omega_2, \omega_3, \omega_4 \}$
onde $\omega_1 = \text{(Cara, Cara)}$, $\omega_2 = \text{(Cara, Coroa)}$, $\omega_3 = \text{(Coroa, Cara)}$, $\omega_4 = \text{(Coroa, Coroa)}$
Considerando que a moeda não esteja viciada, temos:
Lançamento | Cara, Cara | Cara, Coroa | Coroa, Cara | Coroa, Coroa | Total |
---|---|---|---|---|---|
Frequência teórica | $\frac{1}{4}$ | $\frac{1}{4}$ | $\frac{1}{4}$ | $\frac{1}{4}$ | 1 |
Logo, sabendo que cada chance possui $\frac{1}{4}$ de probabilidade de ocorrer, e chamamos de $A$ o evento que cair apenas faces iguais nos dois lançamentos, temos:
$$P(A) = P\{\omega_1, \omega_4 \} = \frac{1}{4} + \frac{1}{4} = \frac{1}{2}$$Se A for qualquer evento de $\Omega$, então : $$P(A) = \sum_{j}P(\omega_j)$$
onde são somados todos os pontos amostrais $\omega_j \in A$
Voltando a nossa tabela de frequência que nos dá o nível de experiência, nós temos que a probabilidade de ser um profissional com nível de experiência Pleno é de $21,4\%$. Sabendo que o evento $A$ é o profissional ser Pleno, temos:
$$P(A) = P(Pleno) = \frac{805}{3755} = 0,214 $$Onde o resultado encontrado é igual ao resultado calculado na frequência relativa.
Uma situação que podemos ter é quando temos um evento que seja um espaço amostral contínuo. Vamos ver um exemplo
Exemplo 3: Para os salários da área de dados (df_salarios), qual a probabilidade de o salário ser igual ou maior 50 mil dálares e menor que 100 mil dólares, Logo:
$$\Omega = \{\text{salário} \in \mathbb{R}: 50 \text{mil} \leq \text{salário} < 100 \text{mil}\}$$df_salarios_agrupados = df_salarios.copy()
bins = [0, 50000, 100000, 1000000]
legendas = ['Abaixo de 50 mil', 'Entre 50000 e 100000 mil', 'Acima de 100000 mil']
df_salarios_agrupados['salario_em_dolares_agrupados'] = pd.cut(df_salarios_agrupados['salario_em_dolares'], bins, labels=legendas, right=False)
tabela_frequencia_salarios = df_salarios_agrupados[['salario_em_dolares_agrupados', 'salario_em_dolares']].groupby('salario_em_dolares_agrupados').agg({'salario_em_dolares': 'count'})
tabela_frequencia_salarios.columns = ['frequencia_observada']
tabela_frequencia_salarios
frequencia_observada | |
---|---|
salario_em_dolares_agrupados | |
Abaixo de 50 mil | 264 |
Entre 50000 e 100000 mil | 727 |
Acima de 100000 mil | 2764 |
Com a tabela de frequência acima, temos:
$$P(A) = \frac{727}{3755} = 0,194 = 19,4\%$$Então a probabilidade de alguém ter o salário entre 50 mil e 100 mil é de 19,4%. Lembrando que pode ser qualquer salário no intervalo $50 \text{mil} \leq \text{salário} < 100 \text{mil}$
Vimos que um modelo probabilístico é um modelo teórico para as frequências relativas. Logo, podemos obter algumas propriedades das probabilidades a partir das propriedades das frequências relativas.
Como a frequência relativa varia entre 0 e 1, as probabilidades também variarão: $$0 < P(A) < 1$$ Para qualquer evento de $A$.
Vamos criar uma tabela de contingência para nossos dados de salário, avaliando nível de experiência e tipo de contrato.
dcf = pd.crosstab(df_salarios['nivel_experiencia'], df_salarios['tipo_de_contrato'])
dcf_total = dcf.copy()
dcf_total['Total'] = dcf.sum(axis=1, numeric_only=True)
dcf2 = pd.DataFrame({dcf_total.columns[0]: dcf_total['Contrato'].sum(),
dcf_total.columns[1]: dcf_total['Freelance'].sum(),
dcf_total.columns[2]: dcf_total['Tempo integral'].sum(),
dcf_total.columns[3]: dcf_total['Tempo parcial'].sum(),
dcf_total.columns[4]: dcf_total['Total'].sum()}, index=['Total'])
dcf_total = dcf_total.append(dcf2)
dcf_total
Contrato | Freelance | Tempo integral | Tempo parcial | Total | |
---|---|---|---|---|---|
Diretor | 1 | 0 | 113 | 0 | 114 |
Junior | 2 | 2 | 302 | 14 | 320 |
Pleno | 5 | 5 | 792 | 3 | 805 |
Senior/Especialista | 2 | 3 | 2511 | 0 | 2516 |
Total | 10 | 10 | 3718 | 17 | 3755 |
Vamos considerar os eventos Tempo integral
e Pleno
. Com esses eventos, podemos considerar dois novos eventos.
Tempo integral $\cup$ pleno (tempo integral ou pleno), chamamos de união de tempo integral e pleno, é quando pelo menos um dos eventos ocorre.
Tempo integral $\cap$ pleno (tempo integral e pleno), chamamos de intersecção de tempo integral e pleno, é quando ambos os eventos ocorrem simultaneamente.
Vemos que a $P(\text{Tempo integral}) = \frac{3718}{3755}$ e $P(\text{Pleno}) = \frac{805}{3755})$. Vamos calcular $P(\text{Tempo integral} \cup \text{Pleno})$
$$P(\text{Tempo integral} \cup \text{Pleno}) = P(\text{Tempo integral}) + P(\text{Pleno}) = \frac{3718}{3755} + \frac{805}{3755} = \frac{4523}{3755}$$Temos um resultado improvável, já que temos um valor maior que as observações. Isso se deve ao fato de estarmos considerando duas vezes os profissionais que são plenos e trabalham em tempo integral. Logo o certo é:
$$P(\text{Tempo integral} \cup \text{Pleno}) = P(\text{Tempo integral}) + P(\text{Pleno}) - P(\text{Tempo integral} \cap \text{Pleno})= \frac{3718}{3755} + \frac{805}{3755} - \frac{792}{3755} = \frac{3731}{3755}$$Nesse caso chamamos os eventos de não mutuamente exclusivos, pois podemos ter ambos ao mesmo tempo.
Para evento não mutuamente exclusivos temos como fórmula:
$$P(A \cup B) = P(A) + P(B) - P(A \cap B)$$Vamos considerar os eventos Júnior
e Pleno
. Como esse eventos, podemos considerar dois novos eventos.
Júnior $\cup$ pleno (júnior ou pleno), chamamos de união de júnior e pleno, é quando pelo menos um dos eventos ocorre.
Júnior $\cap$ pleno (júnior e pleno), chamamos de intersecção de júnior e pleno, é quando ambos os eventos ocorrem simultaneamente.
Vemos que a $P(\text{Júnior}) = \frac{302}{3755}$ e $P(\text{Pleno}) = \frac{805}{3755}$. Vamos calcular $P(\text{Júnior} \cup \text{Pleno})$
$$P(\text{Júnior} \cup \text{Pleno}) = P(\text{Júnior}) + P(\text{Pleno}) = \frac{302}{3755} + \frac{805}{3755} = \frac{1107}{3755}$$Temos o resultado para a união. Só que e quando o profissional for junior e pleno? Vamos ver na tabela:
dcf_total
Contrato | Freelance | Tempo integral | Tempo parcial | Total | |
---|---|---|---|---|---|
Diretor | 1 | 0 | 113 | 0 | 114 |
Junior | 2 | 2 | 302 | 14 | 320 |
Pleno | 5 | 5 | 792 | 3 | 805 |
Senior/Especialista | 2 | 3 | 2511 | 0 | 2516 |
Total | 10 | 10 | 3718 | 17 | 3755 |
Vemos que não existe profissionais que são júnior e pleno ao mesmo tempo, isso se deve a um nível de experiência excluir o outro, não podendo ter dois ao mesmo tempo. Logo:
$P(\text{Junior} \cap \text{Pleno}) = 0$
Portanto, voltando a para a equação dos eventos mutuamente exclusivos, teremos:
$$P(A \cup B) = P(A) + P(B) - P(A \cap B)$$Sabendo que não a intersecção entre os conjuntos, sendo $A \cap B = \emptyset$, então $P(A \cap B) = 0$, temos
$$P(A \cup B) = P(A) + P(B)$$Nesse caso chamamos os eventos de mutuamente exclusivos, pois podemos ter apenas um deles por vez.
Vamos criar uma tabela de contingência de ações e vamos usar a tabela criada na regra da adição.
google = df_b3[df_b3['ticker'] == 'GOGL34']
bins = [0, 100, 200, 10000]
legendas = ['De 0 à 100', 'De 100 à 200', 'Acima de 200']
google['open_agrupados'] = pd.cut(google['open'], bins, labels=legendas, right=False)
tabela_frequencia_google = google[['open_agrupados', 'open']].groupby('open_agrupados').agg({'open': 'count'})
tabela_frequencia_google.columns = ['frequencia_observada']
Vamos ver com um exemplo para facilitar o entendimento
Exemplo 4: Qual a probabilidade de uma ação do Google ter seu valor acima de 200 reais e um salário da área de dados está contido entre 50 mil e 100 mil dólares/ano?
Temos o evento $A$, que é o valor da ação do Google está acima de 200 reais. E temos o evento B que é o valor do salário de um funcionário da área de dados está contido entre 50 mil e 100 mil dólares/ano.
Para responder esse exemplo vamos ver as duas tabelas criadas.
tabela_frequencia_google
frequencia_observada | |
---|---|
open_agrupados | |
De 0 à 100 | 77 |
De 100 à 200 | 760 |
Acima de 200 | 275 |
tabela_frequencia_salarios
frequencia_observada | |
---|---|
salario_em_dolares_agrupados | |
Abaixo de 50 mil | 264 |
Entre 50000 e 100000 mil | 727 |
Acima de 100000 mil | 2764 |
Logo temos que:
$$P(A) = \frac{275}{1112} = 0,247$$e
$$P(B) = \frac{727}{3755} = 0,194$$Como esses eventos não dependem de si, para achar a probabilidade de uma ação do Google está com seu valor acima de 200 reais e um salário da área de dados está contido entre 50 mil e 100 mil dólares/ano, temos que multiplicar as probabilidades achadas.
$$P(A)P(B)= 0,274 \cdot 0,194 = 0,053$$Formalizando:
Quando temos dois eventos independentes, então a probabilidade da ocorrência de ambos os eventos será igual ao produto das probabilidade individuais.
$$P(\text{A e B}) = P(A)\cdot P(B)$$Vamos ver com um exemplo para facilitar o entendimento
Exemplo 5: Uma empresa teve acesso a pesquisa de salários da área de dados e quer contratar dois profissionais na faixa salarial entre 50 mil e 100 mil dólares/ano e que sejam de nível pleno. Qual a probabilidade de aleatoriamente eles escolherem dois profissionais com essas características?
Para responder esse exemplo vamos criar uma tabela de frequência.
tabela_frequencia_salarios_nivel = df_salarios_agrupados[['salario_em_dolares_agrupados', 'salario_em_dolares', 'nivel_experiencia']].groupby(['salario_em_dolares_agrupados', 'nivel_experiencia']).agg({'salario_em_dolares': 'count'})
tabela_frequencia_salarios_nivel.columns = ['frequencia_observada']
tabela_frequencia_salarios_nivel
frequencia_observada | ||
---|---|---|
salario_em_dolares_agrupados | nivel_experiencia | |
Abaixo de 50 mil | Diretor | 1 |
Junior | 99 | |
Pleno | 104 | |
Senior/Especialista | 60 | |
Entre 50000 e 100000 mil | Diretor | 5 |
Junior | 118 | |
Pleno | 290 | |
Senior/Especialista | 314 | |
Acima de 100000 mil | Diretor | 108 |
Junior | 103 | |
Pleno | 411 | |
Senior/Especialista | 2142 |
Temos que 290 profissionais ganham o salário entre 50 mil e 100 mil dólares/ano e são de nível pleno. Logo pro primeiro profissional:
$$P(A) = \frac{290}{3755} = 0,077$$Contudo, para o segundo a probabilidade muda, já que agora temos um funcionário a menos.
$$P(B|A) = \frac{289}{3754} = 0,076$$Isso demonstra que a probabilidade do segundo depende da probabilidade do primeiro.
Formalizando:
$$P(\text{A e B}) = P(A) \cdot P(B|A)$$Onde $P(B|A)$ lê-se como "a probabilidade de B sabendo que A já ocorreu" ou "a probabilidade de B dado A"
Logo no nosso exemplo acima teríamos
$$P(\text{A e B}) = \frac{290}{3755} \cdot \frac{289}{3754} = 0,006$$Com isso vemos que a probabilidade é de 0,6% para conseguir aleatoriamente dois profissionais com as características desejadas.
As combinações são subconjuntos onde a ordem dos elementos não é importante, entretanto, são caracterizadas pela natureza dos mesmos.
Sua fórmula é dada por
$$C_{k, x} = {n \choose k} = \frac{n!}{x!(n-x)!}$$onde
Vamos a um exemplo:
Exemplo 6:
Uma investidor quer comprar 5 ações do Google, sendo 2 ações com o preço entre 0 e 100 reais e 3 com o preço acima de 200 reais. Qual a probabilidade do investidor comprar essas ações, de modo que a ordem seja irrelevante?
tabela_frequencia_google
frequencia_observada | |
---|---|
open_agrupados | |
De 0 à 100 | 77 |
De 100 à 200 | 760 |
Acima de 200 | 275 |
Temos 77 opções de escolha para ações de 0 à 100 reais e 275 para ações acima de 200 reais.
A combinação de 0 à 100 reais é:
$$C_{77, 2} = {77 \choose 2} = \frac{77!}{2!(77-2)!} = 2926$$A combinação para ações acima de 200 reais é:
$$C_{275, 3} = {275 \choose 3} = \frac{275!}{3!(275-3)!} = 3428425$$E a combinação total é:
$$C_{1112, 5} = {1112 \choose 5} = \frac{1112!}{5!(1112-5)!} = 14042094310000$$Com isso conseguimos calcular a probabilidade, que é:
$$P(A) = \frac{2926 \cdot 3428425}{14042094310000} = 0,000714 = 0,07\%$$Temos que a probabilidade de o investidor conseguir aleatoriamente uma combinação de 5 ações, 2 abaixo de 100 reais e 3 acima de duzentos é de 0,07%.
dcf_total
Contrato | Freelance | Tempo integral | Tempo parcial | Total | |
---|---|---|---|---|---|
Diretor | 1 | 0 | 113 | 0 | 114 |
Junior | 2 | 2 | 302 | 14 | 320 |
Pleno | 5 | 5 | 792 | 3 | 805 |
Senior/Especialista | 2 | 3 | 2511 | 0 | 2516 |
Total | 10 | 10 | 3718 | 17 | 3755 |
Exemplo 7:
Vamos pegar um profissional, escolhido aleatoriamente, que trabalhe em tempo integral, a probabilidade que ele seja sênior é de $\frac{2511}{3718}$, pois dos 3718 profissionais que trabalham em tempo integral, 2511 são de nível sênior. Escrevemos então:
$$P(\text{sênior|tempo integral}) = \frac{2511}{3718}$$Formalizando:
Para dois eventos quaisquer $A$ e $B$, sendo $P(B) > 0$, definimos a probabilidade condicional de $A$ dado $B$, $P(A|B)$, como sendo:
$$P(A|B) = \frac{P(A\cap B)}{P(B)}$$No nosso exemplo acima, sendo $B$ profissionais que trabalham em tempo integral e $A$ profissionais de nível sênior, temos:
$$P(A|B) = \frac{\frac{2511}{3755}}{\frac{3718}{3755}} = \frac{2511}{3755} \cdot \frac{3755}{3718} = \frac{2511}{3718} = 0,675$$Da equação 9, podemos obter a regra do produto de probabilidades
$$P(A \cap B) = P(B) \cdot P(A|B)$$Se em nosso exemplo, depois de escolher um profissional de nível sênior, fossemos escolher um de nível pleno, teríamos:
$$P(\text{tempo integral} \cap \text{sênior} \cap \text{pleno}) = P(\text{tempo integral}) \cdot P(\text{sênior|tempo integral}) \cdot P(\text{pleno|tempo integral} \cap \text{sênior})$$$$P(\text{tempo integral} \cap \text{sênior} \cap \text{pleno}) = \frac{3718}{3755} \cdot \frac{2511}{3718} \cdot \frac{792}{3717} = 0,990 \cdot 0,675 \cdot 0,213 = 0,142$$Então, a fórmula para três eventos é: $$P(A \cap B \cap C) = P(A) \cdot P(B|A) \cdot P(C|A \cap B)$$
Essa relação pode ser estendida para um número finito de eventos.
Vamos novamente usar a tabela de contingência anterior.
dcf_total
Contrato | Freelance | Tempo integral | Tempo parcial | Total | |
---|---|---|---|---|---|
Diretor | 1 | 0 | 113 | 0 | 114 |
Junior | 2 | 2 | 302 | 14 | 320 |
Pleno | 5 | 5 | 792 | 3 | 805 |
Senior/Especialista | 2 | 3 | 2511 | 0 | 2516 |
Total | 10 | 10 | 3718 | 17 | 3755 |
Exemplo 8:
Vamos agora imaginar que todos esses profissionais são de uma mesma empresa e ela está fazendo uma premiação, onde ela entregará dois prêmios. O candidato que ganhar o primeiro prêmio, também pode concorrer ao segundo. A probabilidade que esse(s) profissional(is) seja(m) sênior(es) é:
$$P(B) = P(\text{Sênior}_1 ) = \frac{2516}{3755}$$$$P(A|B)= P(\text{Sênior}_2|\text{Senior}_1) = \frac{2516}{3755} = P(A)$$A probabilidade $P(A|B)$ é igual a $P(A)$ devido ao fato de "repormos" o candidato após a primeira premiação, fazendo com que o evento $A$ não seja condicionado ao evento $B$. Esse tipo de probabilidade chamamos de independente, pois a probabilidade posterior independe da probabilidade anterior.
Sua fórmula é dada por:
$$P(A\cap B) = P(A) \cdot P(B)$$Em nosso exemplo o resultado seria:
$$P(A\cap B) = P(A) \cdot P(B) = \frac{2516}{3755} \cdot \frac{2516}{3755} = \frac{6330256}{14100025} = 0,45$$Se em nosso exemplo, depois do segundo prêmio, houvesse um terceiro para um profissional nível pleno, ficaria:
$$P(A) = P(\text{Senior}_1 ) = \frac{2516}{3755}$$$$P(B) = P(\text{Senior}_2|\text{Senior}_1) = \frac{2516}{3755} = P(A)$$$$P(C) = P(\text{Pleno}|\text{Senior}_1 \cap \text{Senior}_2 ) = \frac{805}{3755}$$$$P(A\cap B \cap C) = P(A) \cdot P(B) \cdot P(C) = \frac{2516}{3755} \cdot \frac{2516}{3755} \cdot \frac{805}{3755}= 0,096$$Essa relação pode ser estendida para um número finito de eventos.
O Teorema de Bayes é uma das relações mais importantes de probabilidades condicionais.
A versão mais simples desse teorema pode ser escrita como:
$$P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{P(A) \cdot P(B|A)}{P(B)}$$Vamos entender com um exemplo.
Vamos ver nossa tabela de contingência usada anteriormente.
dcf_total
Contrato | Freelance | Tempo integral | Tempo parcial | Total | |
---|---|---|---|---|---|
Diretor | 1 | 0 | 113 | 0 | 114 |
Junior | 2 | 2 | 302 | 14 | 320 |
Pleno | 5 | 5 | 792 | 3 | 805 |
Senior/Especialista | 2 | 3 | 2511 | 0 | 2516 |
Total | 10 | 10 | 3718 | 17 | 3755 |
Exemplo 9:
Temos quatro tipos de formas de contratos, cada um com quatro possibilidade de níveis. Qual a probabilidade de um contrato ser de tempo parcial sabendo que o nível de experiência escolhido foi júnior?
Bom, sabemos que:
$$P(\text{Contrato}) = \frac{1}{4}, P(\text{Júnior|Contrato}) = \frac{2}{10}$$$$P(\text{Freelance}) = \frac{1}{4}, P(\text{Júnior|Freelance}) = \frac{2}{10}$$$$P(\text{Tempo integral}) = \frac{1}{4}, P(\text{Júnior|Tempo integral}) = \frac{302}{3718}$$$$P(\text{Tempo parcial}) = \frac{1}{4}, P(\text{Júnior|Tempo parcial}) = \frac{14}{17}$$Usando o teorema de Bayes, temos:
$$P(\text{Tempo Parcial|Júnior}) = \frac{P(\text{Tempo Parcial}) \cdot P(\text{Júnior|Tempo Parcial})}{P(\text{Júnior})}$$Precisamos achar o valor de ${P(\text{Júnior})}$. Como os tipos de contratos são mutuamente exclusivos, e reunidos formam o espaço amostral completo, podemos decompor os profissionais juniores na reunião de quatro outros, também mutuamente exclusivos:
$${P(\text{Júnior})} = P(\text{Contrato} \cap \text{Júnior}) \cup P(\text{Freelance} \cap \text{Júnior}) \cup P(\text{Tempo integral} \cap \text{Júnior}) \cup P(\text{Tempo parcial} \cap \text{Júnior})$$Lembrando a regra do produto das probabilidades, temos:
$$P(A \cap B) = P(B) \cdot P(A|B)$$Substituindo ela no nosso problema
$${P(\text{Junior})} = P(\text{Contrato}) \cdot P(\text{Junior|Contrato}) + P(\text{Freelance}) \cdot P(\text{Junior|Freelance}) + P(\text{Tempo integral}) \cdot P(\text{Junior|Tempo integral}) + P(\text{Tempo parcial}) \cdot P(\text{Junior|Tempo parcial})$$Como temos todas as probabilidade já calculadas, só substituir:
$${P(\text{Junior})} = \frac{1}{4} \cdot \frac{2}{10} + \frac{1}{4} \cdot \frac{2}{10} + \frac{1}{4} \cdot \frac{302}{3718} + \frac{1}{4} \cdot \frac{14}{17}$$$${P(\text{Junior})} = 0,33$$substituindo no teorema de Bayes.
$$P(\text{Tempo Parcial|Júnior}) = \frac{0,25 \cdot 0,82}{0,33} = 0,62$$Logo, temos 62% de probabilidade de o contrato ser tempo parcial, sendo o nível do profissional júnior.
Formalizando o que vimos:
Seja $\{C_1, C_2, ..., C_n\}$ uma partição do espaço amostral $\Omega$, então:
$C_i \cap C_j = \emptyset$, para todo $ i \neq j$, então $C_1 \cup C_2 \cup ... \cup C_n = \Omega$
A probabilidade de ocorrência do evento $C_i$, supondo-se a ocorrência do evento $A$ é:
$$P(C_i|A) = \frac{P(C_i)\cdot P(A|C_i)}{\sum_{j=1}^{n}P(C_j)\cdot P(A|C_j)}$$onde:
Essa é a forma generalizada do teorema de Bayes.
Vamos a mais um exemplo para assimilarmos.
Exemplo 10:
As ações de uma empresa fecharam em queda no dia 29/06/2023, sendo que um banco de investimentos previu que para o próximo dia a probabilidade de ter uma nova queda é de 10%. Porém, no final do dia o dólar teve uma alta, e baseado em experiências anteriores, a probabilidade de uma queda na ação quando há uma alta do dólar é de 25%. Já nos dias que o preço da ação subiu, apenas 3% das vezes foi em alta do dólar. Como podemos atualizar a probabilidade de queda para o dia seguinte?
Chamaremos de $Q$ o evento de queda da ação. $A$ será a alta do dólar.
Bom, primeiro devemos entender as nossas variáveis
Com a nova informação aumenta a probabilidade de queda da ação da empresa de 10% para 48%.
Porém, foi noticiado que um determinado fundo irá investir alguns milhões na empresa.
Sabe-se que quando foi noticiada que houve um aumento do dólar e investimento na empresa, as ações caíram 10% das vezes, enquanto, sabe-se que quando foi noticiada que houve aumento do dólar e investimento na empresa as ações subiram 70% da vezes. Chamaremos o evento de investimento de $I$
Temos agora:
Agora temos a probabilidade de queda no dia seguinte de 11%. O teorema de Bayes nos permite fazer as atualizações nas probabilidades ao longo de novas informações dos dados.