import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import pymc3 as pm

import warnings  
warnings.filterwarnings('ignore')


df_salarios = pd.read_csv('dados/dados_tratados.csv').drop('Unnamed: 0', axis=1)
df_b3 = pd.read_csv('dados/b3_stocks_1994_2020.csv')
df_b3['datetime'] = pd.to_datetime(df_b3['datetime'])


np.random.seed(1)

# media da população
theta = df_salarios['salario_em_dolares']

# media da amostra com n = 50
t1 = df_salarios['salario_em_dolares'].sample(n=50)

#media da amostra com n = 500
t2 = df_salarios['salario_em_dolares'].sample(n=500)

#media da amostra com n = 1000
t3 = df_salarios['salario_em_dolares'].sample(n=1000)

#media da amostra com n = 2000
t4 = df_salarios['salario_em_dolares'].sample(n=2000)

print(f'n = 50: erro = {np.abs(t1.mean() - theta.mean())}')
print(f'n = 500: erro = {np.abs(t2.mean() - theta.mean())}')
print(f'n = 1000: erro = {np.abs(t3.mean() - theta.mean())}')
print(f'n = 2000: erro = {np.abs(t4.mean() - theta.mean())}')

n = 50: erro = 10520.349880159789
n = 500: erro = 4301.604119840224
n = 1000: erro = 2925.0651198402047
n = 2000: erro = 575.8243801597855


print(f'variância t1 = {t1.var()}')
print(f'variância t2 = {t2.var()}')
print(f'variância t3 = {t3.var()}')
print(f'variância t4 = {t4.var()}')

variância t1 = 3819868903.590204
variância t2 = 4033275973.284533
variância t3 = 4128068881.9699454
variância t4 = 3979110572.27985


t1.var() + (t1.mean() - theta.mean())**2

3930546665.1911817


def intervalo_de_confianca_para_proporcao(proporcao, coeficiente_confianca, tamanho_amostra):
    confianca = coeficiente_confianca * np.sqrt((proporcao * (1-proporcao)) / tamanho_amostra)
    return proporcao - confianca, proporcao + confianca


# para nível de confiança de 95%
proporcao = len(df_salarios[df_salarios['nivel_experiencia'] == 'Pleno']) / len(df_salarios)
intervalo_de_confianca_para_proporcao(proporcao, 1.96, len(df_salarios))

(0.2012542903652969, 0.22750736076652733)


# Dados produto A 
X_a = np.array([1] * (int(0.84 * 987) + int(0.05 * 987)) + [0] * (int(0.04 * 987) + int(0.02 * 987)))
np.random.shuffle(X_a) # apenas para embaralhar os dados

# Dados produto B
X_b = np.array([1] * (int(0.85 * 1359) + int(0.02 * 1359)) + [0] * (int(0.05 * 1359) + int(0.02 * 1359)))
np.random.shuffle(X_b)


with pm.Model() as model:
    # priori
    priori_a = pm.Beta('produto_a', 1, 1)
    priori_b = pm.Beta('produto_b', 5, 2)

    # Deterministico
    delta = pm.Deterministic('delta', priori_a - priori_b)

    # posteriori
    obs_a = pm.Bernoulli('obs_a', priori_a, observed=X_a)
    obs_b = pm.Bernoulli('obs_b', priori_b, observed=X_b)

    # likelihood
    trace = pm.sample(draws = 10000, tune=5000, step=pm.Metropolis())

Multiprocess sampling (4 chains in 4 jobs)
CompoundStep
>Metropolis: [produto_b]
>Metropolis: [produto_a]

Sampling 4 chains for 5_000 tune and 10_000 draw iterations (20_000 + 40_000 draws total) took 17 seconds.
The number of effective samples is smaller than 25% for some parameters.


pm.plot_posterior(trace['produto_a'])

<Axes: title={'center': 'x'}>


pm.plot_posterior(trace['produto_b'])

<Axes: title={'center': 'x'}>


plt.figure(figsize=(14, 10))
ax1 = plt.subplot(3, 1, 1)
ax2 = plt.subplot(3, 1, 2)
ax3 = plt.subplot(3, 1, 3)
ax1.hist(trace['produto_a'], histtype='stepfilled', bins=40, density=True)
ax1.set_xlim([0.84, 1])
ax1.vlines(trace['produto_a'].mean(), 0, 60, linestyle='--', color='black')
ax1.set_title('Posteriori produto A')

ax2.hist(trace['produto_b'], histtype='stepfilled', bins=40, density=True)
ax2.set_xlim([0.84, 1])
ax2.vlines(trace['produto_b'].mean(), 0, 60, linestyle='--', color='black')
ax2.set_title('Posteriori produto B')

ax3.hist(trace['delta'], histtype='stepfilled', bins=40, density=True)
ax3.vlines(0, 0, 35, linestyle='--', color='black')
ax3.set_title('Posteriori Delta')

plt.show()


print(f'Probabilidade do cliente gostar mais do produto A: {np.mean(trace["delta"] > 0)}')
print(f'Probabilidade do cliente gostar mais do produto B: {np.mean(trace["delta"] < 0)}')

Probabilidade do cliente gostar mais do produto A: 0.869575
Probabilidade do cliente gostar mais do produto B: 0.130425

Observação	X	Y
1	1,2	3,9
2	1,5	4,7
3	1,7	5,6
4	2,0	5,7
5	2,6	7,0

X	Y	3X	Y - 3x	(Y-3X)²
1,2	3,9	3,6	0,3	0,09
1,5	4,7	4,5	0,2	0,04
1,7	5,6	5,1	0,5	0,25
2,0	5,7	6,0	-0,2	0,04
2,6	7,0	7,8	-0,8	0,64
Total			0	1,06

X	Y	2,93X	Y - 2,93x	(Y-2,93X)²
1,2	3,9	3,5	0,4	0,16
1,5	4,7	4,4	0,3	0,09
1,7	5,6	5,0	0,6	036
2,0	5,7	5,9	-0,2	0,04
2,6	7,0	7,6	-0,6	0,36
Total			0,5	1,01

Sumário

Introdução¶

Propriedades de estimadores¶

Estimadores de mínimos quadrados¶

Estimadores de máxima verossimilhança¶

Binomial¶

Bernoulli¶

Normal¶

Poisson¶

Exponencial¶

Uniforme¶

Intervalos de confiança¶

Erro padrão de um estimador¶

Média¶

Proporção¶

Inferência Bayesiana¶

Referências¶