DEV Community

loading...
Cover image for Importando as bibliotecas | Pré-processamento em Machine Learning

Importando as bibliotecas | Pré-processamento em Machine Learning

thalesbruno profile image Thales Bruno Updated on ・2 min read

Uma etapa fundamental antes de instanciarmos nossos modelos e desenvolvermos nossos algoritmos de Machine Learning é a do pré-processamento dos dados. Concordemos que essa não é a etapa mais empolgante do nosso trabalho, mas ela é sim fundamental para o sucesso de todas as etapas seguintes, por isso merece todo o carinho e atenção.

Vamos abordar as etapas e técnicas mais comuns aplicadas no pré-processamento:

  1. Importando as bibliotecas
  2. Importando o dataset
  3. Dividindo o dataset: X e y
  4. Tratando os dados inválidos
  5. Tratando os dados categóricos
  6. Dividindo o dataset para treinamento e teste
  7. Feature Scaling

Esta será uma série de posts onde abordaremos todas essas 6 etapas mencionadas, começando neste artigo com a importação das ferramentas necessárias. Espero que gostem da série ;)

1. Importando as bibliotecas

Nosso primeiro passo será importar as bibliotecas básicas, comuns a praticamente todos os projetos de Machine Learning feitos em Python.

Numpy

Com o Numpy nós manipularemos nossas matrizes e vetores de dados com uma melhor performance (até 50 vezes mais rápido que as listas tradicionais em Python [1]), com várias funções matemáticas prontas, técnicas intuitivas de manipulação de arrays de várias dimensões, entre outras diversas vantagens.

Pandas

O pandas, que foi implementado sobre o Numpy, é outra das mais famosas e utilizadas bibliotecas Python quando se trabalha com Data Science e Machine Learning. Com ele ganhamos uma poderosa ferramenta para análise e manipulação de dados, de uma forma mais visual que o Numpy. Podemos importar nossos datasets diretamente de um arquivo CSV, de uma planilha do Excel, um arquivo HTML ou de um endereço da Web, entre outros formatos, utilizando o pandas.

Matplotlib

A terceira ferramenta utilizada aqui é o Matplotlib, utilizada para plotarmos nossos dados na forma de gráficos.

Código

Mas vamos enfim ao código! Para importarmos nossas poderosas ferramentas é muito simples, basta as três linhas de código abaixo:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
Enter fullscreen mode Exit fullscreen mode

Os alias np, pd e plt são convenções largamente utilizadas, embora não sejam uma regra ou obrigatórias, naturalmente.


Feitas as importações das ferramentas básicas, já podemos avançar para o próximo passo: Importando o dataset. Mas veremos isso no post seguinte. Até lá.


Referências

[1] https://www.w3schools.com/python/numpy_intro.asp

Cover Photo by rishi on Unsplash

Discussion (0)

pic
Editor guide