Francisco Júnior

Posted on Jul 31, 2023 • Edited on Oct 22, 2023

Tratamento de Outliers no Pandas: Estratégias e Exemplos

#pandas #python #outliers #programming

Outliers são valores atípicos que estão significativamente distantes dos demais pontos de um conjunto de dados. Esses valores extremos podem ocorrer por diversos motivos, como erros de medição, comportamentos incomuns ou eventos raros. A presença de outliers pode afetar negativamente a análise e os resultados de modelos estatísticos e de machine learning. Neste artigo, vamos explorar estratégias eficazes para o tratamento de outliers utilizando a biblioteca Pandas no Python, além de fornecer exemplos práticos para cada abordagem.

Identificação de Outliers usando o IQR (Intervalo Interquartil)

O IQR (Intervalo Interquartil) é uma medida estatística útil para identificar outliers em um conjunto de dados. Ele é definido como a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1) do conjunto de dados. Em outras palavras, o IQR abrange a faixa de valores que contém aproximadamente 50% dos dados centrais.

Para calcular o IQR e identificar os outliers, podemos seguir os seguintes passos:

Calcular o primeiro quartil (Q1) e o terceiro quartil (Q3).
Calcular o IQR: IQR = Q3 - Q1.
Definir um limite inferior: Limite Inferior = Q1 - 1.5 * IQR.
Definir um limite superior: Limite Superior = Q3 + 1.5 * IQR.
Identificar os outliers como aqueles que estão abaixo do limite inferior ou acima do limite superior.

Vamos agora incluir essa abordagem no artigo, juntamente com exemplos de como remover os outliers com base no IQR.

Exemplo 1: Identificação de Outliers usando o IQR

import pandas as pd

# DataFrame de exemplo
data = pd.DataFrame({'idade': [25, 30, 32, 35, 40, 150, 42, 45, 50]})

# Calcular os quartis Q1 e Q3
Q1 = data['idade'].quantile(0.25)
Q3 = data['idade'].quantile(0.75)

# Calcular o IQR
IQR = Q3 - Q1

# Definir os limites inferior e superior
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Identificar outliers
outliers = data[(data['idade'] < limite_inferior) | (data['idade'] > limite_superior)]

print("Outliers:")
print(outliers)

Exemplo 2: Remoção de Outliers usando o IQR

Agora, vamos remover os outliers identificados no Exemplo 1 e atualizar o DataFrame:

import pandas as pd

# DataFrame de exemplo
data = pd.DataFrame({'idade': [25, 30, 32, 35, 40, 150, 42, 45, 50]})

# Calcular os quartis Q1 e Q3
Q1 = data['idade'].quantile(0.25)
Q3 = data['idade'].quantile(0.75)

# Calcular o IQR
IQR = Q3 - Q1

# Definir os limites inferior e superior
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Remover outliers
data = data[(data['idade'] >= limite_inferior) & (data['idade'] <= limite_superior)]

print(data)

O uso do IQR para identificar e tratar outliers é uma abordagem robusta e eficaz em muitos cenários. Neste artigo, adicionamos ao nosso repertório a aplicação do IQR para a identificação de outliers e fornecemos exemplos de como remover esses valores extremos com base nos limites calculados. O tratamento de outliers é uma etapa crucial no pré-processamento de dados antes da análise estatística ou da construção de modelos. Lembre-se de que cada conjunto de dados é único e pode exigir ajustes específicos de acordo com a natureza do problema e a quantidade de outliers presentes. Portanto, compreender o contexto do seu problema e a distribuição dos dados é fundamental para tomar decisões adequadas no tratamento de outliers. Utilize essas técnicas em seus próprios projetos de análise de dados e explore outras estratégias disponíveis para lidar com valores extremos em suas tarefas do dia a dia. Com prática e conhecimento, você estará apto a realizar análises mais sólidas e obter insights significativos a partir dos seus dados.

Estratégias de Tratamento de Outliers

1. Remoção de Outliers

Uma abordagem simples para tratar outliers é removê-los do conjunto de dados. No entanto, essa estratégia deve ser aplicada com cuidado, pois a remoção excessiva de dados pode levar à perda de informações importantes e enviesar a análise. Vamos ilustrar como fazer isso usando o Pandas:

import pandas as pd

# DataFrame de exemplo
data = pd.DataFrame({'idade': [25, 30, 32, 35, 40, 150, 42, 45, 50]})

# Calcular os quartis Q1 e Q3
Q1 = data['idade'].quantile(0.25)
Q3 = data['idade'].quantile(0.75)

# Calcular o IQR
IQR = Q3 - Q1

# Definir os limites inferior e superior
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Remover outliers
data = data[(data['idade'] >= limite_inferior) & (data['idade'] <= limite_superior)]

print(data)

2. Substituição por Valores Limites

Outra abordagem é substituir os outliers por valores limites adequados, que não afetem negativamente a análise, mas ainda mantenham a integridade dos dados. Por exemplo, podemos substituir os valores extremos pela mediana do conjunto de dados:

import pandas as pd

# DataFrame de exemplo
data = pd.DataFrame({'salario': [2500, 2800, 3000, 3200, 3500, 100000, 3800, 4000, 4200]})

# Calculando a mediana do salário
median_salary = data['salario'].median()

# Substituindo outliers pelo valor da mediana
data.loc[data['salario'] > 10000, 'salario'] = median_salary

print(data)

3. Transformação dos Dados

Em alguns casos, uma transformação matemática nos dados pode ajudar a reduzir o impacto dos outliers. Por exemplo, a aplicação do logaritmo nos valores pode comprimir a escala dos dados e tornar os outliers menos influentes:

import pandas as pd
import numpy as np

# DataFrame de exemplo
data = pd.DataFrame({'receita': [1000, 1200, 1500, 1800, 2000, 50000, 2200, 2500, 3000]})

# Aplicando a transformação logarítmica na receita
data['receita'] = np.log1p(data['receita'])

print(data)

4. Binning (Agrupamento)

O agrupamento dos valores em bins (intervalos) pode ser uma estratégia útil para lidar com outliers em determinados contextos. Ao agrupar os valores, os outliers são mapeados para os limites dos bins, tornando-os menos influentes nos resultados da análise:

import pandas as pd

# DataFrame de exemplo
data = pd.DataFrame({'peso': [50, 60, 70, 80, 90, 200, 100, 110, 120]})

# Criando bins para agrupamento de peso
bins = [0, 100, 150, 200]
labels = ['leve', 'médio', 'pesado']

# Criando uma nova coluna com os labels dos bins
data['grupo_peso'] = pd.cut(data['peso'], bins=bins, labels=labels)

print(data)

Conclusão

O uso do IQR para identificar e tratar outliers é uma abordagem robusta e eficaz em muitos cenários. Neste artigo, você aprendeu algumas estratégias comuns para o tratamento de outliers usando o Pandas, incluindo remoção, substituição, transformação e agrupamento. O tratamento de outliers é uma etapa crucial no pré-processamento de dados antes da análise estatística ou da construção de modelos. Lembre-se de que cada conjunto de dados é único e pode exigir ajustes específicos de acordo com a natureza do problema e a quantidade de outliers presentes. Portanto, compreender o contexto do seu problema e a distribuição dos dados é fundamental para tomar decisões adequadas no tratamento de outliers. Utilize essas técnicas em seus próprios projetos de análise de dados e explore outras estratégias disponíveis para lidar com valores extremos em suas tarefas do dia a dia. Com prática e conhecimento, você estará apto a realizar análises mais sólidas e obter insights significativos a partir dos seus dados.

DEV Community