import pandas as pd
import numpy as np
from scipy import stats
import seaborn as sns
import matplotlib.pyplot as plt
from decimal import Decimal

import warnings  
warnings.filterwarnings('ignore')


df_salarios = pd.read_csv('dados/dados_tratados.csv').drop('Unnamed: 0', axis=1)
df_b3 = pd.read_csv('dados/b3_stocks_1994_2020.csv')
df_b3['datetime'] = pd.to_datetime(df_b3['datetime'])


df_salarios


df_amostra = df_salarios.sample(n=500, random_state=42)
df_amostra


df_amostra2 = df_salarios[df_salarios['salario_em_dolares'] > 137570].sample(n=500, random_state=42)
df_amostra2


print(f'A média de salário da população é: {df_salarios["salario_em_dolares"].mean()}')
print(f'A média de salário da amostra aleatória 1 é: {df_amostra["salario_em_dolares"].mean()}')
print(f'A média de salário da amostra aleatória 2 é: {df_amostra2["salario_em_dolares"].mean()}')

A média de salário da população é: 137570.38988015978
A média de salário da amostra aleatória 1 é: 136439.28
A média de salário da amostra aleatória 2 é: 190619.94


stats.binom.pmf(36, 50, 0.5)

0.0008329742729351612


# população
df_salarios['salario_em_dolares'][0:10]

0     85847
1     30000
2     25500
3    175000
4    120000
5    222200
6    136000
7    219000
8    141000
9    147100
Name: salario_em_dolares, dtype: int64


# amostra
df_salarios['salario_em_dolares'][0:10].sample(n=5, replace=True)

6    136000
2     25500
1     30000
3    175000
6    136000
Name: salario_em_dolares, dtype: int64


np.random.normal(df_salarios['salario_em_dolares'].mean(), df_salarios['salario_em_dolares'].std(), 5)

array([130994.18217351, 158378.26454968,  81615.39916725,  88755.86296217,
       -27703.77217867])


# população
df_salarios['salario_em_dolares'][0:10]

0     85847
1     30000
2     25500
3    175000
4    120000
5    222200
6    136000
7    219000
8    141000
9    147100
Name: salario_em_dolares, dtype: int64


# amostra
df_salarios['salario_em_dolares'][0:10].sample(n=5, replace=False)

8    141000
0     85847
1     30000
2     25500
5    222200
Name: salario_em_dolares, dtype: int64


def fatorial(x):
    valor = 1
    for i in range(1, x+1):
        valor *= i
    return valor


# número de sucessos = k
# tamanho da amostra = n
# probabilidade de sucesso = p
def distribuicao_binomial(numero_sucessos, tamanho_amostra, probabilidade_sucesso):
    possiveis_sequencias = (fatorial(tamanho_amostra)/(fatorial(numero_sucessos) 
                                                       * fatorial(tamanho_amostra-numero_sucessos)))
    nao_sucessos = 1 - probabilidade_sucesso
    return (possiveis_sequencias * (probabilidade_sucesso**numero_sucessos)
            * (nao_sucessos **(tamanho_amostra-numero_sucessos)))


lista = []
lista2 = []
lista3 = []
for i in range(1, 51):
    lista.append(distribuicao_binomial(i, 50 , 0.5))
    lista2.append(i)
    if i >= 36:
        lista3.append(distribuicao_binomial(i, 50 , 0.5))
    
    
with sns.axes_style("whitegrid"):
    plt.figure(figsize=(14, 5))
    plt.bar(lista2, lista)
    plt.plot(lista2, lista)
    plt.xlabel('Número de sucessos')
    plt.ylabel('Probabilidade')
    plt.title('Distribuição Binomial')
    plt.show()


sum(lista3)

0.0013010857283610733


lista = []
lista2 = []
lista3 = []
for i in range(1, 51):
    lista.append(distribuicao_binomial(i, 50 , 0.72))
    lista2.append(i)
    
    
with sns.axes_style("whitegrid"):
    plt.figure(figsize=(14, 5))
    plt.bar(lista2, lista)
    plt.plot(lista2, lista)
    plt.xlabel('Número de sucessos')
    plt.ylabel('Probabilidade')
    plt.title('Distribuição Binomial')
    plt.show()


import numpy
import matplotlib.pyplot as plt
 
num = [1, 10, 20, 30, 40, 50] 

media = [] 
 
for j in num:
    numpy.random.seed(42)
    x = [numpy.mean(
        numpy.random.randint(
            0, 10, j)) for i in range(1000)]
    media.append(x)
k = 0

fig, ax = plt.subplots(2, 3, figsize =(14, 8))
for i in range(0, 2):
    for j in range(0, 3):
        ax[i, j].hist(media[k], bins=50, density = True)
        ax[i, j].set_title(label = num[k])
        k = k + 1
plt.show()

	ano_trabalho	nivel_experiencia	tipo_de_contrato	cargo	salario	moeda_salario	salario_em_dolares	pais_residencia	tipo_trabalho	local_companhia	tamanho_companhia
0	2023	Senior/Especialista	Tempo integral	Principal Data Scientist	80000	EUR	85847	ES	Home office	ES	Grande
1	2023	Pleno	Contrato	ML Engineer	30000	USD	30000	US	Home office	US	Pequeno
2	2023	Pleno	Contrato	ML Engineer	25500	USD	25500	US	Home office	US	Pequeno
3	2023	Senior/Especialista	Tempo integral	Data Scientist	175000	USD	175000	CA	Home office	CA	Medio
4	2023	Senior/Especialista	Tempo integral	Data Scientist	120000	USD	120000	CA	Home office	CA	Medio
...	...	...	...	...	...	...	...	...	...	...	...
3750	2020	Senior/Especialista	Tempo integral	Data Scientist	412000	USD	412000	US	Home office	US	Grande
3751	2021	Pleno	Tempo integral	Principal Data Scientist	151000	USD	151000	US	Home office	US	Grande
3752	2020	Junior	Tempo integral	Data Scientist	105000	USD	105000	US	Home office	US	Pequeno
3753	2020	Junior	Contrato	Business Data Analyst	100000	USD	100000	US	Home office	US	Grande
3754	2021	Senior/Especialista	Tempo integral	Data Science Manager	7000000	INR	94665	IN	Hibrido	IN	Grande

	ano_trabalho	nivel_experiencia	tipo_de_contrato	cargo	salario	moeda_salario	salario_em_dolares	pais_residencia	tipo_trabalho	local_companhia	tamanho_companhia
2148	2022	Senior/Especialista	Tempo integral	Machine Learning Software Engineer	168000	USD	168000	CA	Home office	CA	Medio
1044	2023	Senior/Especialista	Tempo integral	Data Analyst	179975	USD	179975	US	Home office	US	Medio
3321	2022	Senior/Especialista	Tempo integral	Data Scientist	144000	USD	144000	US	Home office	US	Medio
439	2023	Senior/Especialista	Tempo integral	Applied Scientist	222200	USD	222200	US	Presencial	US	Grande
3519	2021	Diretor	Tempo integral	Head of Data	230000	USD	230000	RU	Hibrido	RU	Grande
...	...	...	...	...	...	...	...	...	...	...	...
2110	2022	Senior/Especialista	Tempo integral	Data Engineer	220000	USD	220000	US	Home office	US	Medio
157	2023	Pleno	Tempo integral	Data Analyst	38000	GBP	46178	GB	Presencial	GB	Medio
2754	2022	Senior/Especialista	Tempo integral	Data Analyst	110000	USD	110000	US	Presencial	US	Medio
912	2023	Pleno	Tempo integral	Data Engineer	154000	USD	154000	US	Presencial	US	Medio
551	2023	Pleno	Tempo integral	Data Engineer	149600	USD	149600	US	Presencial	US	Medio

	ano_trabalho	nivel_experiencia	tipo_de_contrato	cargo	salario	moeda_salario	salario_em_dolares	pais_residencia	tipo_trabalho	local_companhia	tamanho_companhia
1888	2022	Senior/Especialista	Tempo integral	ML Engineer	235000	USD	235000	US	Home office	US	Medio
369	2023	Senior/Especialista	Tempo integral	Data Engineer	240000	USD	240000	US	Presencial	US	Medio
3053	2022	Senior/Especialista	Tempo integral	Data Scientist	180000	USD	180000	US	Home office	US	Grande
791	2023	Senior/Especialista	Tempo integral	Data Engineer	252000	USD	252000	US	Presencial	US	Medio
1449	2023	Senior/Especialista	Tempo integral	Data Scientist	139000	USD	139000	US	Home office	US	Medio
...	...	...	...	...	...	...	...	...	...	...	...
2938	2022	Pleno	Tempo integral	Product Data Analyst	140000	USD	140000	US	Home office	US	Medio
1362	2023	Senior/Especialista	Tempo integral	Machine Learning Engineer	163800	USD	163800	US	Presencial	US	Medio
2095	2022	Pleno	Tempo integral	Machine Learning Scientist	165000	USD	165000	US	Presencial	US	Medio
3376	2022	Senior/Especialista	Tempo integral	Data Scientist	210000	USD	210000	US	Home office	US	Medio
1376	2023	Senior/Especialista	Tempo integral	Data Engineer	226700	USD	226700	US	Presencial	US	Medio

Sumário

População e Amostra¶

Problemas da inferência¶

Como selecionar uma amostra¶

Amostragem aleatória simples¶

Amostragem aleatória com reposição¶

Amostragem aleatória sem reposição¶

Estatística e parâmetros¶

Distribuições amostrais¶

Distribuição amostral da média¶

Teorema do limite central¶

Distribuição amostral de uma proporção¶

Determinação do tamanho de uma amostra¶

Referências¶