import pandas as pd
import numpy as np
from scipy import stats
import seaborn as sns
import matplotlib.pyplot as plt
import pyspark.sql.functions as F

import warnings  
warnings.filterwarnings('ignore')


df = pd.read_csv('dados/dados_tratados.csv').drop('Unnamed: 0', axis=1)
df.head()


df.head(2)


dcf = pd.crosstab(df['nivel_experiencia'], df['tipo_de_contrato'])
dcf_total = dcf.copy()
dcf_total['Total'] = dcf.sum(axis=1, numeric_only=True)
dcf2 = pd.DataFrame({dcf.columns[0]: dcf['Contrato'].sum(),
                     dcf.columns[1] : dcf['Freelance'].sum(),
                     dcf.columns[2]: dcf['Tempo integral'].sum(),
                     dcf.columns[3]: dcf['Tempo parcial'].sum()}, index=['Total'])
dcf_total = dcf_total.append(dcf2)
dcf_total
dcf_total.style.set_caption("Tabela 1 - Distribuição conjunta das proporções de tipo de contrato e o nível de experiência")


dcf.plot(kind='bar', stacked=True)
plt.show

<function matplotlib.pyplot.show(close=None, block=None)>


dcf_porcentagem = dcf.copy()
for coluna in dcf.columns:
    dcf_porcentagem[coluna] = (dcf[coluna] / len(df))

dcf_porcentagem['Total'] = dcf_porcentagem.sum(axis=1, numeric_only=True)
dcf2 = pd.DataFrame({dcf_porcentagem.columns[0]: dcf_porcentagem['Contrato'].sum(),
                     dcf_porcentagem.columns[1] : dcf_porcentagem['Freelance'].sum(),
                     dcf_porcentagem.columns[2]: dcf_porcentagem['Tempo integral'].sum(),
                     dcf_porcentagem.columns[3]: dcf_porcentagem['Tempo parcial'].sum()}, index=['Total'])
dcf_porcentagem = pd.concat([dcf_porcentagem, dcf2])
dcf_porcentagem['Total'].iloc[-1:] = dcf_porcentagem.iloc[-1:].sum(axis=1, numeric_only=True)
dcf_porcentagem 
dcf_porcentagem.style.set_caption("Tabela 2 - Distribuição conjunta das proporções (em porcentagem) de tipo de contrato e o nível de experiência")


dcf_esperados = dcf.copy()
for coluna in dcf.columns:
    valor = dcf_porcentagem[coluna].iloc[-1:].values.item()
    dcf_esperados[coluna].iloc[0:] = valor 
    dcf_esperados[coluna] = dcf_esperados[coluna] * dcf_total['Total']

dcf_esperados['Total'] = dcf_total['Total']
dcf_esperados
dcf_esperados.style.set_caption("Tabela 3 - Distribuição conjunta das proporções esperadas de tipo de contrato e o nível de experiência")


medida_afastamento = ((dcf - dcf_esperados) ** 2) / dcf_esperados
medida_afastamento = medida_afastamento.drop('Total', axis=1) 
medida_afastamento


qui_quadrado_pearson = 0
for coluna in medida_afastamento.columns:
    qui_quadrado_pearson += medida_afastamento[coluna].sum()
    
qui_quadrado_pearson

139.5897460517641


# validando o resultado com scipy
stats.chi2_contingency(dcf)[0]

139.5897460517641


def coeficiente_contigencia(qui_quadrado, n):
    return np.sqrt((qui_quadrado / (qui_quadrado + n)))

coeficiente_contigencia(qui_quadrado_pearson, len(df))

0.1893197405150074


# validando o resultado com scipy
from scipy import stats
stats.contingency.association(dcf, method='pearson')

0.1893197405150074


def coeficiente_contigencia_modificado(qui_quadrado, n, r, s):
    return np.sqrt(((qui_quadrado / n) / ((r - 1) * (s - 1))))

coeficiente_contigencia_modificado(qui_quadrado_pearson, len(df), len(dcf), len(dcf.columns))

0.06426885063589059


df_b3 = pd.read_csv('dados/b3_stocks_1994_2020.csv')
df_b3['datetime'] = pd.to_datetime(df_b3['datetime'])
df_b3['ano'] = df_b3['datetime'].dt.year
df_b3.head()


google = df_b3[df_b3['ticker'] == 'GOGL34']
google = google[google['datetime'].dt.year < 2020]
google


plt.figure(figsize=(14, 5))
sns.scatterplot(data=google, x="datetime", y="open")
plt.show()


irbr = df_b3[df_b3['ticker'] == 'IRBR3']

irbr = irbr[irbr['datetime'].dt.year >= 2020]

plt.figure(figsize=(14, 5))
sns.scatterplot(data=irbr, x="datetime", y="open")
plt.show()


ano = [2016, 2017, 2018, 2019, 2020]
valor = [343, 368, 355, 334, 337]
df_criada = pd.DataFrame(list(zip(ano, valor)), columns=['Ano', 'Valor'])


plt.figure(figsize=(14, 5))
sns.scatterplot(data=df_criada, x="Ano", y="Valor")
plt.show()


print(f'A média do ano é: {df_criada["Ano"].mean()}')
print(f'O desvio padrão do ano é: {df_criada["Ano"].std():.2f}')
print(f'A média do valor é: {df_criada["Valor"].mean()}')
print(f'O desvio padrão do valor é: {df_criada["Valor"].std():.2f}')

A média do ano é: 2018.0
O desvio padrão do ano é: 1.58
A média do valor é: 347.4
O desvio padrão do valor é: 14.05


def correlacao_pearson(df, variavel_x, variavel_y):
    z_score_x = (df[variavel_x] - (sum(df[variavel_x]) / len(df[variavel_x]))) / df[variavel_x].std()
    z_score_y = (df[variavel_y] - (sum(df[variavel_y]) / len(df[variavel_y]))) / df[variavel_y].std()
    return sum(z_score_x * z_score_y) / (len(df) - 1)


correlacao_pearson(df_criada, 'Ano', 'Valor')

-0.5178026794057726


df_criada.corr(method='pearson')


df_criada_rank = df_criada.copy()
df_criada_rank.loc[df_criada_rank["Ano"].sort_values().index, "Rank_Ano"] = np.arange(df_criada_rank.shape[0])
df_criada_rank.loc[df_criada_rank["Valor"].sort_values().index, "Rank_Valor"] = np.arange(df_criada_rank.shape[0])

df_criada_rank["Rank_Ano"] = df_criada_rank["Rank_Ano"].astype(int)
df_criada_rank["Rank_Valor"] = df_criada_rank["Rank_Valor"].astype(int)

df_criada_rank


def correlacao_spearman(df, X, Y):
    df.loc[df[X].sort_values().index, "Rank_X"] = np.arange(df.shape[0])
    df.loc[df[Y].sort_values().index, "Rank_Y"] = np.arange(df.shape[0])

    df[X] = df[X].astype(int)
    df[Y] = df[Y].astype(int)
    
    numerador = sum((df["Rank_X"] - df["Rank_X"].mean()) * (df["Rank_Y"] - df["Rank_Y"].mean()))       
    denominador = np.sqrt(sum(((df["Rank_X"] - df["Rank_X"].mean()))**2) * sum(((df["Rank_Y"] - df["Rank_Y"].mean()))**2))
    return numerador / denominador


df_criada[['Ano', 'Valor']].corr(method='spearman')


correlacao_spearman(df_criada, 'Ano', 'Valor')

-0.6


df.head(3)


sns.boxplot(data=df, x="nivel_experiencia", y="salario_em_dolares")

<AxesSubplot:xlabel='nivel_experiencia', ylabel='salario_em_dolares'>


def r_quadrado(df, X, Y):
    variancia = df[[X, Y]].groupby(X).var()
    quantidade = df[[X, Y]].groupby(X).count()
    media_variancia = sum((quantidade[Y] * variancia[Y])) / sum(quantidade[Y])
    variancia_total = df[Y].var()
    return 1 - (media_variancia / variancia_total)


r_quadrado(df, 'nivel_experiencia', 'salario_em_dolares')

0.19839004764069046

	ano_trabalho	nivel_experiencia	tipo_de_contrato	cargo	salario	moeda_salario	salario_em_dolares	pais_residencia	tipo_trabalho	local_companhia	tamanho_companhia
0	2023	Senior/Especialista	Tempo integral	Principal Data Scientist	80000	EUR	85847	ES	Home office	ES	Grande
1	2023	Pleno	Contrato	ML Engineer	30000	USD	30000	US	Home office	US	Pequeno
2	2023	Pleno	Contrato	ML Engineer	25500	USD	25500	US	Home office	US	Pequeno
3	2023	Senior/Especialista	Tempo integral	Data Scientist	175000	USD	175000	CA	Home office	CA	Medio
4	2023	Senior/Especialista	Tempo integral	Data Scientist	120000	USD	120000	CA	Home office	CA	Medio

	ano_trabalho	nivel_experiencia	tipo_de_contrato	cargo	salario	moeda_salario	salario_em_dolares	pais_residencia	tipo_trabalho	local_companhia	tamanho_companhia
0	2023	Senior/Especialista	Tempo integral	Principal Data Scientist	80000	EUR	85847	ES	Home office	ES	Grande
1	2023	Pleno	Contrato	ML Engineer	30000	USD	30000	US	Home office	US	Pequeno

	Contrato	Freelance	Tempo integral	Tempo parcial	Total
Diretor	1	0	113	0	114.000000
Junior	2	2	302	14	320.000000
Pleno	5	5	792	3	805.000000
Senior/Especialista	2	3	2511	0	2516.000000
Total	10	10	3718	17	nan

	Contrato	Freelance	Tempo integral	Tempo parcial	Total
Diretor	0.000266	0.000000	0.030093	0.000000	0.030360
Junior	0.000533	0.000533	0.080426	0.003728	0.085220
Pleno	0.001332	0.001332	0.210919	0.000799	0.214381
Senior/Especialista	0.000533	0.000799	0.668708	0.000000	0.670040
Total	0.002663	0.002663	0.990146	0.004527	1.000000

tipo_de_contrato	Contrato	Freelance	Tempo integral	Tempo parcial	Total
nivel_experiencia
Diretor	0.303595	0.303595	112.876698	0.516112	114.000000
Junior	0.852197	0.852197	316.846871	1.448735	320.000000
Pleno	2.143808	2.143808	797.067909	3.644474	805.000000
Senior/Especialista	6.700399	6.700399	2491.208522	11.390679	2516.000000

Sumário

Introdução¶

Variáveis Qualitativas¶

Associação entre variáveis qualitativas¶

Medidas de associação entre variáveis qualitativas¶

Associação entre variáveis quantitativas¶

Coeficiente de correlação de Pearson¶

Coeficiente de correlação de Spearman¶

Associação entre variáveis qualitativas e quantitativas¶

Referências¶

tipo_de_contrato	Contrato	Freelance	Tempo integral	Tempo parcial
nivel_experiencia
Diretor	1.597455	0.303595	0.000135	0.516112
Junior	1.545947	1.545947	0.695697	108.739176
Pleno	3.805299	3.805299	0.032223	0.113966
Senior/Especialista	3.297379	2.043603	0.157234	11.390679

	$B_1$	$B_2$	...	$B_s$	Total
$A_1$	$n_{11}$	$n_{12}$	...	$n_{1s}$	$n_{1.}$
$A_2$	$n_{21}$	$n_{22}$	...	$n_{2s}$	$n_{2.}$
$\cdot$	$\cdot$	$\cdot$	$\cdot$	$\cdot$	$\cdot$
$\cdot$	$\cdot$	$\cdot$	$\cdot$	$\cdot$	$\cdot$
$A_r$	$n_{r1}$	$n_{r2}$	...	$n_{rs}$	$n_{r.}$
Total	$n_{.1}$	$n_{.2}$	...	$n_{.s}$	$n_{..}$

	datetime	ticker	open	close	high	low	volume	ano
0	1994-07-04	ACE 3	48.00	48.00	48.00	47.00	46550.0	1994
1	1994-07-04	ALP 3	155.27	156.00	156.00	155.27	163405.8	1994
2	1994-07-04	ALP 4	131.00	131.00	131.00	131.00	6550.0	1994
3	1994-07-04	IBP 6	600.00	600.00	600.00	600.00	7800.0	1994
4	1994-07-04	AQT 4	0.89	0.99	0.99	0.85	13137.0	1994

	datetime	ticker	open	close	high	low	volume	ano
1441222	2016-05-09	GOGL34	102.00	103.25	103.40	101.00	5747536.0	2016
1441527	2016-05-10	GOGL34	102.80	101.70	102.80	100.96	3609032.0	2016
1441832	2016-05-11	GOGL34	101.50	100.85	101.50	100.85	810700.0	2016
1442141	2016-05-12	GOGL34	100.95	101.02	101.36	100.95	851247.0	2016
1442468	2016-05-13	GOGL34	101.50	101.65	101.73	101.50	864020.0	2016
...	...	...	...	...	...	...	...	...
1751406	2019-12-20	GOGL34	222.75	223.83	224.00	221.45	956565.0	2019
1751808	2019-12-23	GOGL34	223.20	221.43	223.20	220.57	2266240.0	2019
1752221	2019-12-26	GOGL34	220.65	221.65	221.65	219.00	727578.0	2019
1752638	2019-12-27	GOGL34	221.22	220.42	222.28	220.00	3086500.0	2019
1753070	2019-12-30	GOGL34	217.66	215.80	217.66	215.00	2076811.0	2019

	Ano	Valor	Ano - media do ano	Valor - média do valor
	2016	343	-2	-4,4
	2017	368	-1	20,6
	2018	355	0	7,6
	2019	334	1	-13,4
	2020	337	2	-10,4
Total

	Ano	Valor	Ano - media do ano	Valor - média do valor	$z_x$	$z_y$
	2016	343	-2	-4,4	-1,27	-0,31
	2017	368	-1	20,6	-0,63	1,47
	2018	355	0	7,6	0	0,54
	2019	334	1	-13,4	0,63	-0,95
	2020	337	2	-10,4	1,27	-0,74
Total