import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import pyspark.sql.functions as F


df = pd.read_csv('dados/dados_tratados.csv').drop('Unnamed: 0', axis=1)
df_spark = spark.read.format("csv").option("header","true").load('dados/dados_tratados.csv')
df_spark.createOrReplaceTempView('df_sql')
df.head()


tabela_frequencia = df[['nivel_experiencia', 'salario']].groupby('nivel_experiencia').agg({'salario': 'count'})
tabela_frequencia.columns = ['frequencia_observada']
tabela_frequencia['frequencia_relativa'] = tabela_frequencia['frequencia_observada'] / tabela_frequencia['frequencia_observada'].sum()
tabela_frequencia["frequencia_acumulada"] = tabela_frequencia["frequencia_relativa"].cumsum()
tabela_frequencia


media = (5000 + 4000 + 4500 + 25000) / 4
media

9625.0


# criando uma função na mão para calcular media
def media(valores):
    return sum(valores) / len(valores)


lista = [5000, 4000, 4500, 25000]
media(lista)

9625.0


# para o nosso conjunto de dados
media(df['salario'])

190695.57177097205


# com pandas
df['salario'].mean()

190695.57177097205


# com pyspark
df_spark.select(F.mean('salario')).show()

+------------------+
|      avg(salario)|
+------------------+
|190695.57177097205|
+------------------+


# no pyspark, uma forma de melhorar o nome da coluna que sai é usando o comando alias
df_spark.select(F.mean('salario').alias('media do salário')).show()

+------------------+
|  media do salário|
+------------------+
|190695.57177097205|
+------------------+


# com sql
spark.sql('SELECT AVG(SALARIO) AS MEDIA_SALARIO FROM df_sql').show()

+------------------+
|     MEDIA_SALARIO|
+------------------+
|190695.57177097205|
+------------------+


df_media_ponderada = (df[['nivel_experiencia', 'salario_em_dolares', 'salario']]
                      .groupby('nivel_experiencia')
                      .agg({'salario_em_dolares': 'mean',
                            'salario': 'count'})
                      .reset_index())

df_media_ponderada.columns = ['nivel_experiencia', 'media_salario', 'quantidade']
df_media_ponderada_spark = spark.createDataFrame(df_media_ponderada) 
df_media_ponderada_spark.createOrReplaceTempView('df_media_ponderada_sql')


# na mão
def media_ponderada(df, valores, pesos):
    return sum(df[valores] * df[pesos]) / df[pesos].sum()

media_ponderada(df_media_ponderada, 'media_salario', 'quantidade')

137570.38988015978


# com numpy 
np.average(a=df_media_ponderada['media_salario'],
           weights=df_media_ponderada['quantidade'])

137570.38988015978


# com spark
df_media_ponderada_spark.select(F.expr('SUM(media_salario * quantidade) / SUM(quantidade)').alias('media_ponderada')).show()

+------------------+
|   media_ponderada|
+------------------+
|137570.38988015978|
+------------------+


# com sql
spark.sql('SELECT SUM(media_salario * quantidade) / SUM(quantidade) AS media_ponderada FROM df_media_ponderada_sql').show()

+------------------+
|   media_ponderada|
+------------------+
|137570.38988015978|
+------------------+


#def media_geometrica(df, coluna):
#    multiplicacao = 1
#    contador = 0
#    valores = list(df[coluna].values)
#    n = len(valores)
#    for valor in valores:
#        multiplicacao = multiplicacao * valor
#    return multiplicacao ** (1/n)


df_geometrica = df.iloc[0:10]
lista = list(df_geometrica['salario'].values)
multiplicacao = 1

# por algum motivo quando passamos no dataframe da erro, tanto na função como em for simples

for valor in [80000, 30000, 25500, 175000, 120000, 222200, 136000, 219000, 141000, 147100]:
    multiplicacao = multiplicacao * valor

print(f'Média geométrica: {multiplicacao ** (1/len(df_geometrica.salario.values))}')

Média geométrica: 105840.76202833292


# com scipy
stats.gmean(df_geometrica['salario'])

105840.76202833273


def mediana(valores):
    ordem = sorted(list(valores))
    if len(ordem) % 2 == 0:
        meio = int(np.floor(len(ordem) / 2) - 1)
        meio1 = meio + 1
        mediana = (ordem[meio] + ordem[meio1]) / 2
    else:
        meio = int(np.floor(len(ordem) / 2))
        mediana = ordem[meio]
    return mediana

mediana(df['salario'])

138000


# com pandas
df['salario'].median()

138000.0


# com pandas
df['salario'].mode()

0    100000
Name: salario, dtype: int64


# em python
def dma(valores):
    media = sum(valores) / len(valores)
    return sum(np.abs(valores - media))/ len(valores)


dma(df['salario'])

116197.07271554231


# usando pandas
df['salario'].mad()

116197.07271554231


# na mão
def variancia(valores):
    media = sum(valores) / len(valores)
    return sum((valores - media)**2)/ (len(valores) - 1)

variancia(df['salario'])

451149321334.5485


# no pandas
df['salario'].var()

451149321334.5485


# na mão
def desvio_padrao(valores):
    media = sum(valores) / len(valores)
    return np.sqrt(sum((valores - media)**2)/ (len(valores) - 1))

desvio_padrao(df['salario'])

671676.5005079071


# no pandas
df['salario'].std()

671676.5005079071


df['salario'].describe()

count    3.755000e+03
mean     1.906956e+05
std      6.716765e+05
min      6.000000e+03
25%      1.000000e+05
50%      1.380000e+05
75%      1.800000e+05
max      3.040000e+07
Name: salario, dtype: float64


# se não passar nada pro método, por padrão é o quantil 50º ou mediana
df['salario'].quantile()

138000.0


# 20º quantil
df['salario'].quantile(q=0.2)

85000.0


conjunto = [10,25,23,34,8,2,7,60]
df_conjunto = pd.DataFrame({'valores': conjunto})


df_conjunto.boxplot(figsize=(5, 3))
plt.show()


def coeficiente_assimetria(valores):
    media = sum(valores) / len(valores)
    assimetria = sum((valores - media)**3) / len(valores)
    desvio_padrao = np.sqrt(sum((valores - media)**2) / (len(valores) - 1))
    return assimetria / (desvio_padrao ** 3)


coeficiente_assimetria(df['salario'])

28.914816754066507


df['salario'].skew()

28.937932169111605


conjunto_simetrico = [1, 1, 3, 3, 5, 5, 5, 7, 7, 9, 9]
df_simetrico = pd.DataFrame({'valores': conjunto_simetrico})
df_simetrico.plot(kind='kde', figsize=(5, 3))
plt.show()
print(f'O coeficente de momento de assimetria é: {df_simetrico["valores"].skew()}')

O coeficente de momento de assimetria é: 0.0


conjunto_assimetrico_direita = [1, 1, 1, 1, 1, 1, 3, 3, 3, 3, 5, 5, 5, 7, 7, 9]
df_assimetrico_direita = pd.DataFrame({'valores': conjunto_assimetrico_direita})
df_assimetrico_direita.plot(kind='kde', figsize=(5, 3))
plt.show()
print(f'O coeficente de momento de assimetria é: {df_assimetrico_direita["valores"].skew()}')

O coeficente de momento de assimetria é: 0.7436128024718242


conjunto_assimetrico_esquerda = [1, 3, 3, 5, 5, 5, 7, 7, 7, 7, 9, 9, 9, 9, 9]
df_assimetrico_esquerda = pd.DataFrame({'valores': conjunto_assimetrico_esquerda})
df_assimetrico_esquerda.plot(kind='kde', figsize=(5, 3))
plt.show()
print(f'O coeficente de momento de assimetria é: {df_assimetrico_esquerda["valores"].skew()}')

O coeficente de momento de assimetria é: -0.6554279508966395


df.head(2)


# vendo nos dados que estamos analisando desde o começo
# aqui utilizamos o gráfico de histograma, mas com ele também é possível ver assimetria
# sendo mais um tipo de gráfico que podemos usar com esse propósito
df['salario_em_dolares'].plot(kind='hist', figsize=(5,3))
plt.show()


mesocurtica = [1, 3, 3, 5, 5, 5, 5, 7, 7, 9]
leptocurtica = [1, 3, 5, 5, 5, 5, 5, 5, 7, 9]
platicurtica = [1, 1, 3, 3, 5, 5, 7, 7, 9, 9]
df_curtose = pd.DataFrame({'mesocurtica': mesocurtica, 'leptocurtica': leptocurtica,
                           'platicurtica': platicurtica})
df_curtose.plot(kind='kde', figsize=(5, 3))
plt.show()
print(f"A curtose da mesocurtica é: {df_curtose['mesocurtica'].kurtosis()}")
print(f"A curtose da leptocurtica é: {df_curtose['leptocurtica'].kurtosis()}")
print(f"A curtose da platicurtica é: {df_curtose['platicurtica'].kurtosis()}")

A curtose da mesocurtica é: 0.08035714285714235
A curtose da leptocurtica é: 1.6714285714285717
A curtose da platicurtica é: -1.3339285714285714


def coeficiente_curtose(valores):
    media = sum(valores) / len(valores)
    assimetria = sum((valores - media)**4) / len(valores)
    desvio_padrao = np.sqrt(sum((valores - media)**2) / (len(valores) - 1))
    return assimetria / (desvio_padrao ** 4)


coeficiente_curtose(df['salario'])

1148.426386596344


# no pandas
df['salario'].kurtosis()

1147.5673898192115


df['salario'].plot(kind='kde', figsize=(5,3))
plt.show()
print(df['salario'].skew())
print(df['salario'].iloc[0:5])

28.937932169111605
0     80000
1     30000
2     25500
3    175000
4    120000
Name: salario, dtype: int64


salario_transformado = np.log1p(df['salario'])
salario_transformado.plot(kind='kde', figsize=(5,3))
plt.show()
print(salario_transformado.skew())
print(salario_transformado.iloc[0:5])

0.7874033806913452
0    11.289794
1    10.308986
2    10.146473
3    12.072547
4    11.695255
Name: salario, dtype: float64


salario_volta = np.expm1(salario_transformado)
salario_volta.plot(kind='kde', figsize=(5,3))
plt.show()
print(salario_volta.skew())
print(salario_volta.iloc[0:5])

28.937932169111598
0     80000.0
1     30000.0
2     25500.0
3    175000.0
4    120000.0
Name: salario, dtype: float64

	ano_trabalho	nivel_experiencia	tipo_de_contrato	cargo	salario	moeda_salario	salario_em_dolares	pais_residencia	tipo_trabalho	local_companhia	tamanho_companhia
0	2023	Senior/Especialista	Tempo integral	Principal Data Scientist	80000	EUR	85847	ES	Home office	ES	Grande
1	2023	Pleno	Contrato	ML Engineer	30000	USD	30000	US	Home office	US	Pequeno
2	2023	Pleno	Contrato	ML Engineer	25500	USD	25500	US	Home office	US	Pequeno
3	2023	Senior/Especialista	Tempo integral	Data Scientist	175000	USD	175000	CA	Home office	CA	Medio
4	2023	Senior/Especialista	Tempo integral	Data Scientist	120000	USD	120000	CA	Home office	CA	Medio

	frequencia_observada	frequencia_relativa	frequencia_acumulada
nivel_experiencia
Diretor	114	0.030360	0.030360
Junior	320	0.085220	0.115579
Pleno	805	0.214381	0.329960
Senior/Especialista	2516	0.670040	1.000000

Cargo	Quantidade de funcionário	Salario
Assistente Administrativo	12	2500,00
Contador	5	5000,00
Gerente	1	8000,00

	ano_trabalho	nivel_experiencia	tipo_de_contrato	cargo	salario	moeda_salario	salario_em_dolares	pais_residencia	tipo_trabalho	local_companhia	tamanho_companhia
0	2023	Senior/Especialista	Tempo integral	Principal Data Scientist	80000	EUR	85847	ES	Home office	ES	Grande
1	2023	Pleno	Contrato	ML Engineer	30000	USD	30000	US	Home office	US	Pequeno

Sumário

Distribuições de Frequência¶

Medidas de Tendência Central¶

Média Aritmética¶

Média Ponderada¶

Media Geométrica¶

Mediana¶

Moda¶

Medidas de dispersão¶

Desvio Médio Absoluto¶

Variância¶

Desvio Padrão¶

Quantis¶

Box Plot¶

Assimetria¶

Curtose¶

Transformações¶

Referências¶

Salário (em R$)	Frequência observada	Frequência Relativa (\%)	Frequência Acumulada
2000,00 ⊢ 3000,00	3	60	60
3000,00 ⊢ 4000,00	0	60	60
4000,00 ⊢ 5000,00	1	20	80
Acima de 5000,00	1	20	100
Total	5	100