DEV Community

Francisco Júnior
Francisco Júnior

Posted on

Desvendando a Distribuição de Frequência em Data Science com Python: Exemplos Práticos com Dataset Fictício

Introdução:

A distribuição de frequência é uma técnica essencial em Data Science para entender a frequência com que diferentes valores ocorrem em um conjunto de dados. Neste artigo, exploraremos os conceitos fundamentais da distribuição de frequência e demonstraremos sua aplicação prática com exemplos usando Python. Utilizaremos um dataset fictício gerado com Numpy para ilustrar esses conceitos de forma tangível.

1. O que é Distribuição de Frequência?

A distribuição de frequência é uma tabela que resume a frequência (número de ocorrências) de cada valor ou intervalo de valores em um conjunto de dados. Ela fornece uma visão clara da distribuição e padrões presentes nos dados.

2. Criando um Dataset Fictício com Numpy:

Vamos começar gerando um dataset fictício para representar uma situação do mundo real.

import numpy as np
import pandas as pd

# Definir semente para reproducibilidade
np.random.seed(42)

# Criar dataset fictício com valores normalmente distribuídos
dados = pd.DataFrame({
    'Notas': np.random.normal(loc=70, scale=10, size=200),
})
Enter fullscreen mode Exit fullscreen mode

3. Tabela de Frequência Simples:

Vamos criar uma tabela de frequência simples para entender a distribuição das notas no nosso dataset.

# Criar a tabela de frequência simples
tabela_frequencia = pd.value_counts(pd.cut(dados['Notas'], bins=10, include_lowest=True, right=False), sort=False)

# Exibir a tabela de frequência simples
print(tabela_frequencia)
Enter fullscreen mode Exit fullscreen mode

4. Histograma:

O histograma é uma representação visual da distribuição de frequência e é especialmente útil para conjuntos de dados contínuos.

import matplotlib.pyplot as plt
import seaborn as sns

# Histograma
plt.figure(figsize=(10, 6))
sns.histplot(dados['Notas'], bins=10, color='skyblue', kde=True)
plt.title('Histograma das Notas')
plt.xlabel('Notas')
plt.ylabel('Frequência')
plt.show()
Enter fullscreen mode Exit fullscreen mode

5. Distribuição de Frequência Cumulativa:

A distribuição de frequência cumulativa mostra a acumulação gradual das frequências ao longo dos valores. Isso pode ser útil para entender a proporção acumulativa de dados abaixo de um determinado ponto.

# Criar a tabela de frequência cumulativa
tabela_frequencia_cumulativa = tabela_frequencia.cumsum()

# Exibir a tabela de frequência cumulativa
print(tabela_frequencia_cumulativa)
Enter fullscreen mode Exit fullscreen mode

6. Gráfico de Frequência Cumulativa:

Visualizaremos a distribuição de frequência cumulativa com um gráfico para obter uma compreensão mais clara.

# Gráfico de frequência cumulativa
plt.figure(figsize=(10, 6))
sns.lineplot(x=tabela_frequencia_cumulativa.index.mid, y=tabela_frequencia_cumulativa, marker='o', color='green')
plt.title('Gráfico de Frequência Cumulativa das Notas')
plt.xlabel('Notas')
plt.ylabel('Frequência Cumulativa')
plt.show()
Enter fullscreen mode Exit fullscreen mode

7. Estatísticas Descritivas:

Podemos complementar a análise da distribuição de frequência com estatísticas descritivas para obter uma visão abrangente dos dados.

# Estatísticas descritivas
media = dados['Notas'].mean()
mediana = dados['Notas'].median()
desvio_padrao = dados['Notas'].std()

print(f'Média: {media:.2f}')
print(f'Mediana: {mediana:.2f}')
print(f'Desvio Padrão: {desvio_padrao:.2f}')
Enter fullscreen mode Exit fullscreen mode

8. Conclusão:

A distribuição de frequência é uma ferramenta valiosa para explorar e compreender a estrutura dos dados. Neste artigo, exploramos os conceitos fundamentais da distribuição de frequência com exemplos práticos usando Python e Numpy.

Ao aplicar essas técnicas em conjuntos de dados reais, os profissionais de Data Science podem identificar padrões, compreender a dispersão dos dados e extrair insights significativos. A combinação de tabelas de frequência, histogramas e gráficos de frequência cumulativa fornece uma compreensão abrangente da distribuição dos dados, sendo essencial para análises exploratórias robustas.

Top comments (0)