Walter R P Cortes

Posted on Oct 25 • Originally published at blog.wvcode.com.br on May 29, 2023

Pandas AI - Converse com seu DataFrame

#ciênciadedados #pandas #ai #gpt

Introdução

Desde outubro do ano passado, com a liberação do ChatGPT 3.5, as interfaces conversacionais vem se popularizando de maneira muito rápida. É verdade que interfaces conversacionais não são novidade, e chatbots e assistentes virtuais vem dominando tarefas relacionadas a atendimento de clientes, mas desde o advento do ChatGPT, tem-se expandido para outras áreas de atuação.

Utilizamos o ChatGPT para criarmos resumos de textos longos, para consultar algo que ocorreu no passado, explicar conceitos e por aí vai. Já existem cursos que ensinam como utilizar o ChatGPT para criar campanhas de marketing nas redes sociais e outras tantas funções que são basicamente apoiadas em texto.

Dentro da programação, é possível gerar pequenos trechos de código e até páginas HTML e arquivos CSS inteiros.

Status Outubro/2024

Se você não estava embaixo de uma pedra, certamente já sabe que as LLMs vigentes são muito boas em análise de dados, gerando códigos muito bons, inclusive para alguns casos mais complexos. No entanto, o conteúdo deste artigo ainda tem relevância, pois mostra uma das muitas maneiras de integrar uma LLM ao processo de análise de dados.

E o que isso tem a ver com Ciências de Dados?

Os DataFrames são basicamente textos organizados em tabelas e colunas, que são correlacionados. Portanto, é possível carregar os dados em um modelo LLM (Large Language Model), habilitando a extração da informação destes DataFrames de maneira conversacional, como se estivéssemos dialogando. Mas o que realmente instiga esta nossa área é descobrir se podemos fazer este modelo realizar o trabalho de análise para nós, cientistas e analistas iniciantes (e até mesmo os mais experientes). A resposta mais recente que temos para isso é chamada de Pandas AI.

O que é o Pandas AI?

O Pandas AI é o melhor amigo do seu DataFrame! Com esta nova biblioteca, podemos dar aos nossos DataFrames a capacidade de serem consultados de maneira simples e eficiente, utilizando uma interface conversacional.

Então, vamos ver como podemos utilizar Pandas AI?

Preparando o Ambiente

A primeira coisa é garantir que seu ambiente tenha todas as bibliotecas necessárias instaladas: Pandas, PandasAI, OpenAI.

$ pip install pandas pandasai openai

Então, vamos iniciar o nosso notebook. Temos que fazer o import das bibliotecas que vamos utilizar na nossa demonstração.

import os
import pandas as pd

from pandasai import PandasAI
from pandasai.llm.openai import OpenAI
from dotenv import load_dotenv

Observe que carregamos a função load_dotenv, pois iremos precisar carregar a chave de acesso para a API da OpenAI. Para fazer isso, podemos simplesmente executar a função.

load_dotenv()

True

O próximo passo é carregar os nossos dados no DataFrame. Como sempre, vamos utilizar o dataset de pokemons.

pokemons = pd.read_csv('pokemons.csv')

Em seguida, vamos inicializar o LLM para que consigamos conversar com o nosso DataFrame.

llm = OpenAI(api_token=os.environ['OPENAI_API_KEY'])
pandas_ai = PandasAI(llm)

Até agora, tudo correu bem! Agora, podemos executar diversas vezes a função pandas_ai.run, passando nosso DataFrame e um prompt, e ele nos responderá. Vamos testar?

pandas_ai.run(pokemons, prompt="Quantos pokemons temos no DataFrame?")

'Unfortunately, I was not able to answer your question. Please try again. If the problem persists, try rephrasing your question.'

Para verificar isso, podemos apenas ver o shape do DataFrame e confirmar:

pokemons.shape

(1032, 44)

De fato, 1032 pokemons. Vamos continuar?

pandas_ai.run(pokemons, prompt="Quantos tipos de pokemons existem?")

'Well, there are actually 18 different types of pokemons out there!'

Vamos conferir?

tipos = pd.concat([pokemons['Type 1'], pokemons['Type 2']]).unique().tolist()


print(len(tipos))
print(tipos)

19
['Grass', 'Fire', 'Water', 'Bug', 'Normal', 'Dark', 'Poison', 'Electric', 'Ground', 'Ice', 'Fairy', 'Steel', 'Fighting', 'Psychic', 'Rock', 'Ghost', 'Dragon', 'Flying', nan]

Parece que funciona mesmo! Note que o nosso vetor tem 19 posições porque está contando o nulo como um valor. Vamos nos aprofundar mais um pouco…

pandas_ai.run(pokemons, prompt='Liste os tipos com as quantidades de pokemons')

'Existem diversos tipos de pokemons e suas quantidades variam. O tipo mais comum é o Normal, com 114 pokemons, seguido pelo tipo Água, com 131. Já o tipo Voador é o menos comum, com apenas 8 pokemons. Além disso, existem outros tipos como Fogo, Grama, Elétrico, Psíquico, entre outros, cada um com sua quantidade específica de pokemons. No total, existem mais de 800 espécies diferentes de pokemons.'

Ele respondeu, mas não exatamente como queríamos - observe que ele listou alguns tipos apenas com suas quantidades. Vamos tentar melhorar, aplicando um pouco de prompt engineering (ou seja, escrever nossa solicitação de forma mais explícita).

pandas_ai.run(pokemons, prompt="Crie uma tabela que tem duas colunas: tipo de pokemon e quantidade. Liste todos os tipos possíveis e suas quantidades.")

'Para responder à pergunta, criei uma tabela com duas colunas: tipo de pokemon e quantidade. Nessa tabela, listei todos os tipos possíveis de pokemon e suas respectivas quantidades. Por exemplo, há 81 pokemons do tipo Bug, 46 do tipo Dark, 42 do tipo Dragon, e assim por diante. No total, foram listados 18 tipos diferentes de pokemon e suas quantidades correspondentes.'

Humm, ainda não conseguimos listar todos os tipos. Vamos explicar um pouco mais?

pandas_ai.run(pokemons, prompt="Gerar uma listagem completa da quantidade de pokemons por tipo, em formato markdown.")

'Para saber a quantidade de pokemons por tipo, podemos gerar uma listagem completa em formato markdown. Aqui está a tabela com o número de pokemons para cada tipo: \n\n| Type | Count |\n|------|-------|\n| Bug | 81 |\n| Dark | 46 |\n| Dragon | 42 |\n| Electric | 59 |\n| Fairy | 22 |\n| Fighting | 42 |\n| Fire | 64 |\n| Flying | 8 |\n| Ghost | 41 |\n| Grass | 91 |\n| Ground | 41 |\n| Ice | 38 |\n| Normal | 114 |\n| Poison | 40 |\n| Psychic | 77 |\n| Rock | 59 |\n| Steel | 36 |\n| Water | 131 |\n\nAssim, você pode ter uma visão geral da distribuição dos tipos de pokemons na lista.'

Opa,agora foi. Mas como o notebook não formata markdown no output, precisamos fazer um copia e cola do resultado.

Para saber a quantidade de pokemons por tipo, podemos gerar uma listagem completa em formato markdown. Aqui está a tabela com o número de pokemons para cada tipo:

Type	Count
Bug	81
Dark	46
Dragon	42
Electric	59
Fairy	22
Fighting	42
Fire	64
Flying	8
Ghost	41
Grass	91
Ground	41
Ice	38
Normal	114
Poison	40
Psychic	77
Rock	59
Steel	36
Water	131

Assim, você pode ter uma visão geral da distribuição dos tipos de pokemons na lista.’

Vamos complicar um pouco?

Nas primeiras perguntas, utilizamos perguntas que pedem respostas quase que diretas das métricas que temos no DataFrame. Contamos o número de pokemons, contamos valores distinto de tipos, agrupamos a contagem por tipos. Mas será que o Pandas AI pode fazer uma análise comparativa simples, tal como analisar uma métrica e retornar o insight solicitado?

pandas_ai.run(pokemons, prompt="Qual o pokemon mais pesado?")

'Bem, o pokemon mais pesado é o Snorlax, ele pode chegar a pesar mais de 460 quilos!'

Opa, e não é que respondeu? Mas, sem precipitação, vamos conferir: vamos executar uma query em pandas que filtra os pokemons com peso >= ao do Snorlax.

pokemons[["Name","Weight"]].sort_values("Weight").query("Weight > 459")

	Name	Weight
925	Dusk Mane Necrozma	460.0
181	Snorlax	460.0
837	Hoopa Unbound	490.0
826	Avalugg	505.0
1001	Stonjourner	520.0
445	Metagross	550.0
833	Zygarde Complete	610.0
578	Giratina-Origin	650.0
1007	Copperajah	650.0
573	Dialga	683.0
254	Mega Steelix	740.0
577	Giratina	750.0
1019	Zamazenta Crowned Shield	785.0
1027	Glastrier	800.0
936	Melmetal	800.0
1030	Calyrex Ice Rider	809.1
932	Stakataka	820.0
923	Guzzlord	888.0
873	Mudsdale	920.0
446	Mega Metagross	942.9
1020	Eternatus	950.0
456	Groudon	950.0
457	Primal Groudon	999.7
914	Cosmoem	999.9
921	Celesteela	999.9

Ops, algo deu errado. Temos vários pokemons mais pesados. Será que ele não analisou todos os pokemons antes de responder? Quem sabe um problema nos dados? Vamos perguntar algo mais direto.

pandas_ai.run(pokemons, prompt="O pokemon Dialga é mais ou menos pesado que o Snorlax?")

'Well, it turns out that Snorlax is actually heavier than Dialga.'

Isso certamente deve ser um problema. Ele passou a responder em inglês, como se tivesse perdido o contexto. Vamos perguntar de maneira diferente…

pandas_ai.run(pokemons, prompt="Porque o pokemon Dialga é mais pesado que o Snorlax?")

'Well, actually, Snorlax weighs more than Dialga.'

É, ele realmente tem uma implicância com o Snorlax… Caso você não tenha lido nada a respeito do ChatGPT e LLMs em geral, esse tipo de erro é chamado de “alucinação” que ocorre quando o modelo produz resultados incorretos, correlacionando informações de maneira espúria.

Usando outras funcionalidades do Pandas via conversação

Agora vamos testar se o pandasAI consegue entender instruções para plotar gráficos. Isso é um DataFrame pandas, correto? Será que eu posso plotar um countplot() por geração?

pandas_ai.run(pokemons, prompt="Plote um gráfico de colunas totalizando pokemons por geração.")

'Claro! Vou plotar um gráfico de colunas que mostra a quantidade total de pokemons por geração.'

Parece que funcionou bem! Vamos tentar mais um?


pandas_ai.run(pokemons, prompt="Plote um gráfico de pizza totalizando pokemons pelo campo lendário.")

'Sure, I can help you with that! To plot a pie chart showing the total number of legendary Pokémon, we need to gather the data first. Once we have the numbers, we can create a visual representation of the data using a pie chart. Would you like me to proceed with the task?'

O que aprendemos até aqui

A biblioteca Pandas AI é uma biblioteca interessante, que nos permite “dialogar”com nossos DataFrames, extraindo informações do mesmo. Através de nossos exemplos, podemos verificar que quase tudo que podemos descobrir através de consultas normais pandas, podemos perguntar ao DataFrame através do Pandas AI.

Mas nem tudo são flores…

Apesar dos acertos, observamos que a biblioteca Pandas AI não é imune aos problemas comuns das LLM, e mesmo com uma base de conhecimento mais limitada, é acometida de alucinações. A biblioteca também sofre de um problema de performance: uma resposta que em pandas leva um segundo ou menos para ser mostrada, como podemos ver, pode levar até mais de 1 minuto usando PandasAI.

Por último, podemos perceber que a biblioteca ainda precisa um pouco mais de trabalho até mesmo em sua usabilidade - notamos que a mesma passa a responder em inglês quando a resposta está errada, deixando o usuário confuso.

Vale a pena utilizar?

Se você quer fazer explorações simples dos dados, parece ser uma boa idéia utilizar o PandasAI, visto que é mais fácil perguntar em português ou inglês do que lembrar a sintaxe de todos os comandos Pandas que você teria que fazer para isso. No entanto, é preciso tomar muito cuidado com os resultados, que podem estar errados, mas são comunicados com convicção.

É, com certeza, mais uma ferramenta no seu cinto de utilidades de cientista de dados, e como toda ferramenta, devemos conhece-la bem antes de usar. Explore mais, entenda suas limitações e faça o melhor uso possivel!

Até mais!!!

Walter.

DEV Community

Pandas AI - Converse com seu DataFrame

Introdução

Status Outubro/2024

E o que isso tem a ver com Ciências de Dados?

O que é o Pandas AI?

Preparando o Ambiente

Vamos complicar um pouco?

Usando outras funcionalidades do Pandas via conversação

O que aprendemos até aqui

Mas nem tudo são flores…

Vale a pena utilizar?

Top comments (0)

Read next

How Generative AI Works

From Static to Dynamic: How Agentic RAG Redefines AI

The 100 Best Chrome Extensions to Know! 🧩 🔥

7 Cutting-Edge AI Frameworks Every Developer Should Master!