Entendendo como o ChatGPT funciona: Tokenizadores

#nlp #chatgpt #llm #ai

O conceito geral de modelos de geração de texto-para-texto, para pessoas que não possuem conhecimento em exatas.

Uma dúvida recorrente é a de como a geração de texto funciona, teria a máquina uma real “consciência” ou então são na verdade humanos respondendo no lugar das máquinas ou quem sabe um código com as respostas prontas, só esperando uma determinada frase?

É fácil se perder na imaginação quando vemos ou utilizamos o ChatGPT, o Claude e tantos outros modelos grandes de linguagem (Large Language Models), mas a verdade sobre o funcionamento destes modelos é muito mais matemática e probabilidade do que se imagina.
Contudo, sei que a maioria dos usuários não querem entender as minucias numéricas, mas sim ter um vislumbre de como este modelo funciona para então poder fazer um uso mais seguro e consciente das informações a eles alimentadas.

Estes modelos funcionam todos de maneira similar, a um ponto que é possível definir um método de funcionamento genérico, que pode ser abstraindo para a maior parte dos modelos de geração de texto e até
para alguns modelos de geração de imagens e som.

Esta é uma série de textos que vai te levar a entender o como estes modelos verdadeiramente funcionam por baixo dos panos e vislumbrar o porquê eles funcionam tão bem em atividades como correção ortográfica e resumo de textos mas são tão ineficazes em operações matemáticas e problemas de lógica.

As principais ferramentas do modelo são, o tokenizador, que possibilita que a máquina entenda o texto, os transformadores que geram o texto efetivamente. Já na parte de processamento há os textos que será utilizado pelo modelo, o treinamento que é onde efetivamente o modelo aprende e o modelo secundário, que é utilizado para verificar a coerência das respostas.

Tokenizador

Um nome assustador, para algo que não é tão assustador assim. O tokenizador é a primeira etapa de uma longa cadeia para que os modelos de linguagem consigam entender as regras gramáticais e semânticas sem serem diretamente ensinados.

É importante entender que as letras são armazenadas em um computador de forma numérica, ou seja, na memória do computador não vai ter a letra “a” escrita mas sim o número “97”, a letra “b” é salva como “98”, “c” “99” e assim vai até “z” que é “122". Dessa forma, a palavra “tio” é salva no computador como “116 105 111”.

Tendo em vista isso, pode-se imaginar que o modelo entenderia essa sequência de números como a palavra “tio”, mas isso não é verdade, como será discutido mais pra frente, esta abordagem não é eficiente e levaria nosso modelo a prever letras e não palavras.
O que se pode pensar é que se pode somar o valor das letras e fazer com que elas valessem o mesmo que uma palavra. Esta abordagem é mais eficaz contudo, incorreta. Desta forma as palavras “tio”, “ito”, “oit” e todos os possíveis anagramas teriam o mesmo valor (332).

É aqui que o tokenizador entra em ação, ele supre esta falta de entendimento do modelo com palavras e traz algo mais amplo e eficiente. permitindo assim que o evitemos anagramas, entendamos subpalavras, e a grande maioria dos dados de entrada.

Mas antes é importante entender o conceito de token, no exemplo anterior cada token era uma letra, tokens podem ser letras, mas também podem ser palavras, subplavras e até um pequeno conjunto delas. Cada token tem um identificador numérico; por exemplo, a palavra “tio” vai ter o identificador 1, a palavra “ito” o identificador 2, a letra “o” o identificador 3, e assim por vai, alguns tokenizadores tem mais centenas de milhares de tokens já identificados.

Tudo depende de como nosso tokenizador é configurado, mas para o nosso entendimento geral basta que utilizemos letras, palavras, pontuações e espaços como tokens.

Agora, que o conceito abstrato de tokens está esclarecido, imagine que há um tokenizador que tem apenas 10 tokens no vocabulário.

A frase “O meu tio vai trabalhar.” pode ser transformada em “1 4 3 8 6 10 9”. Nota-se que o “\0” é usado para identificar que a nossa frase acabou. Agora esta sequência é passada para o modelo para que assim seja possível treiná-lo de forma eficiente e coesa.

Fontes:

BERT (huggingface.co)

DEV Community

Entendendo como o ChatGPT funciona: Tokenizadores

Tokenizador

Fontes:

Top comments (0)

Read next

NeurIPS 2024 - What Matters When Building Vision Language Models

OpenAI o3 - Thinking Fast and Slow

Supercharging AI Code Reviews: Our Journey with Mistral-Large-2411

Why Run LLM's /SLM's locally