Simplificando a Análise de Dados Textuais com Manipulação de Strings no Pandas

#python #datascience #pandas #programming

Na análise de dados, é comum lidar com informações em formato de texto ou strings. A capacidade de manipular eficientemente strings é fundamental para extrair insights valiosos desses dados textuais. Felizmente, o Pandas, uma biblioteca popular de análise de dados em Python, oferece recursos poderosos para a manipulação de strings, facilitando o processo de análise. Neste artigo, exploraremos alguns exemplos completos de manipulação de strings usando o Pandas, mostrando como suas funcionalidades podem simplificar e agilizar a análise de dados textuais.

1 - Divisão e Extração de Strings:

Um cenário comum é quando temos uma coluna de um DataFrame contendo nomes completos e desejamos separar esses nomes em colunas distintas, como primeiro nome e sobrenome. Podemos fazer isso facilmente usando o método str.split() do Pandas. Veja o exemplo abaixo:

import pandas as pd

# Criar um DataFrame de exemplo
data = {'Nome': ['João Silva', 'Maria Souza', 'Pedro Santos']}
df = pd.DataFrame(data)

# Dividir o nome em primeira e última coluna
df[['Primeiro Nome', 'Sobrenome']] = df['Nome'].str.split(' ', 1, expand=True)

# Exibir o DataFrame resultante
print(df)

A saída será:

           Nome Primeiro Nome Sobrenome
0    João Silva           João     Silva
1  Maria Souza          Maria     Souza
2  Pedro Santos          Pedro    Santos

2 - Substituição de Strings:

Em algumas situações, precisamos substituir partes específicas de strings por outras. O Pandas nos fornece o método str.replace() para realizar essa substituição. Considere o exemplo em que queremos substituir os caracteres "a" por "e" em uma coluna chamada "Texto":

import pandas as pd

# Criar um DataFrame de exemplo
data = {'Texto': ['banana', 'maçã', 'laranja']}
df = pd.DataFrame(data)

# Substituir "a" por "e" no texto
df['Texto'] = df['Texto'].str.replace('a', 'e')

# Exibir o DataFrame resultante
print(df)

A saída será:

    Texto
0  benene
1    meçã
2  lerenje

3 - Extração de Informações:

Muitas vezes, precisamos extrair informações específicas de strings. O Pandas oferece o método str.extract() para essa finalidade. Vamos supor que temos uma coluna de um DataFrame que contém números de telefone e desejamos extrair o código de área desses números:

import pandas as pd

# Criar um DataFrame de exemplo
data = {'Telefone': ['(11) 98765-4321', '(22) 12345-6789', '(33) 55555-9999']}
df = pd.DataFrame(data)

# Extrair o código de área dos números de telefone
df['Código de Área'] = df['Telefone'].str.extract(r'\((\d+)\)')

# Exibir o DataFrame resultante
print(df)

A saída será:

          Telefone Código de Área
0  (11) 98765-4321             11
1  (22) 12345-6789             22
2  (33) 55555-9999             33

A manipulação de strings é uma habilidade essencial na análise de dados textuais. O Pandas simplifica esse processo, fornecendo métodos e funções poderosos para dividir, substituir e extrair informações de strings em conjuntos de dados. Neste artigo, exploramos alguns exemplos completos de manipulação de strings usando o Pandas, demonstrando como essas funcionalidades podem ser aplicadas de forma eficiente e eficaz. Ao dominar essas técnicas, você estará preparado para lidar com dados textuais e obter insights valiosos em suas análises.