import pandas as pd
import numpy as np
from scipy import stats
import seaborn as sns
import matplotlib.pyplot as plt
from decimal import Decimal

import warnings  
warnings.filterwarnings('ignore')


df_salarios = pd.read_csv('dados/dados_tratados.csv').drop('Unnamed: 0', axis=1)
df_b3 = pd.read_csv('dados/b3_stocks_1994_2020.csv')
df_b3['datetime'] = pd.to_datetime(df_b3['datetime'])


dcf = pd.crosstab(df_salarios['tamanho_companhia'], df_salarios['tipo_trabalho'])
dcf_total = dcf.copy()
dcf_total['Total'] = dcf.sum(axis=1, numeric_only=True)
dcf2 = pd.DataFrame({dcf_total.columns[0]: dcf_total['Hibrido'].sum(),
                     dcf_total.columns[1]: dcf_total['Home office'].sum(),
                     dcf_total.columns[2]: dcf_total['Presencial'].sum(),
                     dcf_total.columns[3]: dcf_total['Total'].sum()}, index=['Total'])
dcf_total = dcf_total.append(dcf2)
dcf_total


x = [2, 3, 4, 5, 6]
p_x = [0.0204, 0.4304, 0.1208, 0.3756, 0.0528]

df_esperanca = pd.DataFrame({'x': x, 'px': p_x})
df_esperanca


def esperanca_matematica(df, x, px):
    return sum(df[x] * df[px])

esperanca_matematica(df_esperanca, 'x', 'px')

4.01


def varianca_variavel_aleatoria(df, x, px):
    valor_medio = esperanca_matematica(df, x, px)
    return sum(((df[x] - valor_medio)**2) * df[px])

varianca_variavel_aleatoria(df_esperanca, 'x', 'px')

1.0987


def desvio_padrao_variavel_aleatoria(df, x, px):
    variancia = varianca_variavel_aleatoria(df_esperanca, x, px)
    return np.sqrt(variancia)

desvio_padrao_variavel_aleatoria(df_esperanca, 'x', 'px')

1.0481889142707053


df_acumulado = df_esperanca.copy()
df_acumulado['fda'] = df_acumulado['px'].cumsum()
df_acumulado


sns.barplot(data=df_acumulado, x="x", y="fda")

<AxesSubplot:xlabel='x', ylabel='fda'>


def distribuicao_uniforme(k):
    return 1/k

print(f'Cada um dos {6} resultados tem a probabilidade de {distribuicao_uniforme(6)} de ocorrer')

Cada um dos 6 resultados tem a probabilidade de 0.16666666666666666 de ocorrer


# vendo como o aumento de valores muda a probabilidade
lista = []
lista2 = []
for i in range(1, 51):
    lista.append(distribuicao_uniforme(i))
    lista2.append(i)

with sns.axes_style("whitegrid"):
    plt.figure(figsize=(14, 5))
    plt.bar(lista2, lista)
    plt.plot(lista2, lista)
    plt.xlabel('Valores da variável aleatória')
    plt.ylabel('Probabilidade')
    plt.title('Distribuição uniforme')
    plt.show()

dcf


def distribuicao_bernoulli(p):
    sucesso = p
    fracasso = 1 - p
    return sucesso, fracasso

distribuicao_bernoulli(0.51)

(0.51, 0.49)


def distribuicao_bernoulli_problema(df, variavel, condicao_sucesso):
    return len(df[df[variavel] == condicao_sucesso]) / len(df)


distribuicao_bernoulli_problema(df_salarios, 'tipo_trabalho', 'Presencial')

0.5121171770972037


probabilidade = len(df_salarios[df_salarios['tipo_trabalho'] == 'Presencial'])/len(df_salarios)
stats.bernoulli.pmf(1, probabilidade)

0.5121171770972037


pleno = distribuicao_bernoulli_problema(df_salarios, 'nivel_experiencia', 'Pleno')


distribuicao_bernoulli(pleno)

(0.21438082556591212, 0.7856191744340879)


# vendo como o aumento da probabilidade de sucesso muda a distribuição
lista_sucesso = []
lista_fracasso = []
lista2 = []
valores = 10
    
for i in list(np.linspace(0, 1, valores)):
    lista_sucesso.append(np.round(distribuicao_bernoulli(i)[0], 2))
    lista_fracasso.append(distribuicao_bernoulli(i)[1])
    lista2.append(i)
    
df_bernoulli = pd.DataFrame({'Sucesso': lista_sucesso, 'Fracasso': lista_fracasso})
    
with sns.axes_style("whitegrid"):
    plt.figure(figsize=(14, 5))
    df_bernoulli.plot(kind='bar')
    plt.xlabel('Probabilidade de sucesso')
    plt.ylabel('Probabilidade de cada evento (Sucesso, Fracasso)')
    plt.title('Distribuição de Bernoulli')
    plt.show()

<Figure size 1400x500 with 0 Axes>


def fatorial(x):
    valor = 1
    for i in range(1, x+1):
        valor *= i
    return valor


# número de sucessos = k
# tamanho da amostra = n
# probabilidade de sucesso = p
def distribuicao_binomial(numero_sucessos, tamanho_amostra, probabilidade_sucesso):
    possiveis_sequencias = (fatorial(tamanho_amostra)/(fatorial(numero_sucessos) 
                                                       * fatorial(tamanho_amostra-numero_sucessos)))
    nao_sucessos = 1 - probabilidade_sucesso
    return (possiveis_sequencias * (probabilidade_sucesso**numero_sucessos)
            * (nao_sucessos **(tamanho_amostra-numero_sucessos)))


distribuicao_binomial(2, 3, 0.5)

0.375


# validando com scipy
stats.binom.pmf(2, 3, 0.5)

0.3750000000000001


def distribuicao_binomial_problema(df, variavel, condicao_sucesso, numero_sucessos):
    tamanho_amostra = len(df)
    probabilidade_sucesso = len(df[df[variavel] == condicao_sucesso]) / tamanho_amostra
    possiveis_sequencias = Decimal((fatorial(tamanho_amostra)//(fatorial(numero_sucessos) 
                                                       * fatorial(tamanho_amostra-numero_sucessos))))
    nao_sucessos = 1 - probabilidade_sucesso
    
    return float((possiveis_sequencias * Decimal((probabilidade_sucesso**numero_sucessos)
            * (nao_sucessos **(tamanho_amostra - numero_sucessos)))))


(fatorial(3755) / fatorial(3730)) / fatorial(25)

1.3798435560850842e+64


distribuicao_binomial_problema(df_salarios, 'tipo_trabalho', 'Presencial', 1923)

0.0


df_amostra = df_salarios.sample(n=50, random_state=42)
distribuicao_binomial_problema(df_amostra, 'tipo_trabalho', 'Presencial', 25)

0.058710477669917716


lista = []
lista2 = []
for i in range(0, 51):
    lista.append(distribuicao_binomial_problema(df_amostra, 'tipo_trabalho', 'Presencial', i))
    lista2.append(i)
    
with sns.axes_style("whitegrid"):
    plt.figure(figsize=(14, 5))
    plt.bar(lista2, lista)
    plt.plot(lista2, lista)
    plt.xlabel('Número de sucessos')
    plt.ylabel('Probabilidade')
    plt.title('Distribuição Binomial')
    plt.show()


lista = []
lista2 = []
for i in range(0, 3756):
    lista.append(distribuicao_binomial_problema(df_salarios, 'tipo_trabalho', 'Presencial', i))
    lista2.append(i)
    
with sns.axes_style("whitegrid"):
    plt.figure(figsize=(14, 5))
    plt.bar(lista2, lista)
    plt.plot(lista2, lista)
    plt.xlabel('Número de sucessos')
    plt.ylabel('Probabilidade')
    plt.title('Distribuição Binomial')
    plt.show()


def fatorial(x):
    valor = 1
    for i in range(1, x+1):
        valor *= i
    return valor


def distribuicao_hipergeometrica(populacao_atributo_desejado, qtd_sucessos,
                                 populacao_total, numero_extraido_populacao):
    
    passo1 = (fatorial(populacao_atributo_desejado) / 
              (fatorial(qtd_sucessos) * 
               fatorial((populacao_atributo_desejado - qtd_sucessos))))
    
    passo2 = (fatorial((populacao_total-populacao_atributo_desejado)) /
             (fatorial((numero_extraido_populacao - qtd_sucessos)) * 
              fatorial(((populacao_total-populacao_atributo_desejado) - 
                        (numero_extraido_populacao - qtd_sucessos)))))
    
    passo3 = (fatorial(populacao_total) /
             (fatorial(numero_extraido_populacao) * 
                                           fatorial((populacao_total - 
                                                     numero_extraido_populacao))))
    
    return ((passo1 * passo2) / passo3)


distribuicao_hipergeometrica(30, 5, 100, 10)

0.09963727785596206


# validando com scipy
stats.hypergeom.pmf(5, 100, 30, 10)

0.09963727785596206


lista = []
lista2 = []
for i in range(1, 21):
    lista.append(distribuicao_hipergeometrica(30, i, 100, 10))
    lista2.append(i)


plt.bar(lista2, lista)
plt.plot(lista2, lista)
plt.show()


def distribuicao_hipergeometrica_problema(df, variavel, condicao_sucesso,
                                          qtd_sucessos, numero_extraido_populacao):
    populacao_total = len(df)

    populacao_atributo_desejado = len(df[df[variavel] == condicao_sucesso])

    passo1 = Decimal(fatorial(populacao_atributo_desejado) // 
              (fatorial(qtd_sucessos) * 
               fatorial((populacao_atributo_desejado - qtd_sucessos))))

    passo2 = Decimal(fatorial((populacao_total-populacao_atributo_desejado)) //
             (fatorial((numero_extraido_populacao - qtd_sucessos)) * 
              fatorial(((populacao_total-populacao_atributo_desejado) - 
                        (numero_extraido_populacao - qtd_sucessos)))))
    
    passo3 = Decimal(fatorial(populacao_total) //
             (fatorial(numero_extraido_populacao) * 
                                           fatorial((populacao_total - 
                                                     numero_extraido_populacao))))

    return float((passo1 * passo2) / passo3)


distribuicao_hipergeometrica_problema(df_salarios, 'tipo_trabalho', 'Presencial', 25, 50)

0.11136100027569679


lista = []
lista2 = []
for i in range(1, 1924):
    lista.append(distribuicao_hipergeometrica_problema(df_salarios, 'tipo_trabalho',
                                                       'Presencial', i, 3000))
    lista2.append(i)
    
with sns.axes_style("whitegrid"):
    plt.figure(figsize=(14, 5))
    plt.bar(lista2, lista)
    plt.plot(lista2, lista)
    plt.xlabel('Número de sucessos')
    plt.ylabel('Probabilidade')
    plt.title('Distribuição Hipergeométrica')
    plt.show()


def distribuicao_poisson(probabilidade, tamanho_populacao, numeros_sucessos):
    _lambda = probabilidade * tamanho_populacao
    return (np.exp(-_lambda) * _lambda**numeros_sucessos) / fatorial(numeros_sucessos)


len(df_b3)

1883203


acoes_acima = len(df_b3[df_b3['open'] > 1000000])


probabilidade = acoes_acima / len(df_b3)


distribuicao_poisson(probabilidade, len(df_b3), 1)

0.2706705664732254


# validando com scipy
stats.poisson.pmf(1, 2)

0.2706705664732254


lista = []
lista2 = []
valores = 10

for i in range(0, 100):
    lista.append(distribuicao_poisson(0.000001, len(df_b3), i))
    lista2.append(i)
    
with sns.axes_style("whitegrid"):
    plt.figure(figsize=(14, 5))
    plt.bar(lista2, lista)
    plt.plot(lista2, lista)
    plt.xlabel('Número de sucessos')
    plt.ylabel('Probabilidade')
    plt.title('Distribuição de Poisson')
    plt.show()


lista_lambda1 = []
lista_lambda4 = []
lista_lambda10 = []
lista2 = []
valores = 10

for i in range(0, 100):
    lista_lambda1.append(distribuicao_poisson(5.31e-7, len(df_b3), i))
    lista_lambda4.append(distribuicao_poisson(4 * 5.31e-7, len(df_b3), i))
    lista_lambda10.append(distribuicao_poisson(10 * 5.31e-7, len(df_b3), i))
    lista2.append(i)
    
with sns.axes_style("whitegrid"):
    plt.figure(figsize=(14, 5))
    #plt.bar(lista2, lista)
    plt.plot(lista2, lista_lambda1, label='$\lambda = 1$')
    plt.plot(lista2, lista_lambda4, label='$\lambda = 4$')
    plt.plot(lista2, lista_lambda10, label='$\lambda = 10$')
    plt.ylabel('Probabilidade')
    plt.title('Distribuição de Poisson')
    plt.legend()
    plt.show()

	Hibrido	Home office	Presencial	Total
Grande	110	220	124	454
Medio	47	1332	1774	3153
Pequeno	32	91	25	148
Total	189	1643	1923	3755

Combinação	Probabilidade	Pontos
Grande - Home office	0,0528	6
Grande - Híbrido	0,006	5
Grande - Presencial	0,0612	4
Media - Home office	0,3696	5
Media - Híbrido	0,042	4
Media - Presencial	0,4284	3
Pequena - Home office	0,0176	4
Pequena - Híbrido	0,002	3
Pequena - Presencial	0,0204	2

x	$p(x)$
6	0,0528
5	0,3756
4	0,1208
3	0,4304
2	0,0204

x	$p(x)$
6	0,0528
5	0,3756
4	0,1208
3	0,4304
2	0,0204

x	$p(x)$
6	0,0528
5	0,3756
4	0,1208
3	0,4304
2	0,0204

Sumário

Conceito¶

Valor médio de uma Variável Aleatória (Esperança matemática)¶

Função de distribuição acumulada¶

Distribuições discretas de probabilidade¶

Distribuição uniforme discreta¶

Distribuição de Bernoulli¶

Distribuição Binomial¶

Distribuição Hipergeométrica¶

Distribuição de Poisson¶

Referências¶

	x	px	fda
0	2	0.0204	0.0204
1	3	0.4304	0.4508
2	4	0.1208	0.5716
3	5	0.3756	0.9472
4	6	0.0528	1.0000

tipo_trabalho	Hibrido	Home office	Presencial
tamanho_companhia
Grande	110	220	124
Medio	47	1332	1774
Pequeno	32	91	25