Machine Learning surgiu dentro da área de Computação Bio-Inspirada, que possui uma grande inspiração dentro da área da Biologia. Dentro dessa grande área de estudo, existem diversos algoritmos com inspiração na natureza, como: árvores de decisão, redes neurais, algoritmo genético, colônia de formigas, enxame de abelhas, etc. Entender como a natureza se comporta pode nos ajudar a entender como a máquina aprende. Ciência de Dados é uma junção de grandes dados, juntando grandes áreas do conhecimento como: Ciência da Computação, Matemática/Estatística e Domínio/Conhecimento de Negócio.
Problema Supervisionado x Problema não Supervisionado
Podemos dividir a área de Machine Learning em três grandes áreas do conhecimento, que são: Aprendizado Supervisionado, Aprendizado Não Supervisionado e Aprendizado por Reforço.
Dentro do Aprendizado Supervisionado, há duas grandes subcategorias, chamadas de: Classificação e Regressão. Na Classificação, seu objetivo é prever uma variável categórica e alguns exemplos dela são: retenção de clientes, diagnóstico, detecção de fraudes e classificação de imagem. Para a Regressão, seu objetivo é prever uma variável numérica e alguns exemplos são: previsão do tempo, estimativa de expectativa de vida, predição de aumento populacional e previsão de mercados.
Dentro do Aprendizado Não Supervisionado, há duas grandes subcategorias: Clustering (Agrupamento) e Redução de Dimensionalidade. O Clustering é utilizado para agrupar clientes, segmentar clientes, recomendar sistemas, entre outras coisas. A Redução da Dimensionalidade é utilizada para visualização de Big Data, descobrir estruturas, entre outas coisas. O Aprendizado por Reforço não é muito utilizado atualmente, possuindo um maior uso mais nas área de aprendizado de jogos e robótica.
As principais diferenças entre os tipos de problemas (supervisionados e não supervisionados) são:
· Problemas Supervisionados = os registros da base de dados são acompanhados por "labels". Esses "labels" podem ser numéricos, no caso de problemas de regressão, ou categóricas, no caso de problemas de classificação.
· Problemas Não Supervisionados = os registros de base de dados não são acompanhados por "labels". Nesse caso, não existe uma classe pré-definida para nenhum dos registros.
O nome "Supervisionado" vem da possibilidade de supervisão no momento do aprendizado (ajuste) do modelo, possibilitado pelo histórico de valor real da coluna target, possibilitando uma acurácia bem maior que o modelo Não Supervisionado. Diferentemente dos Problemas Supervisionados, para Problemas Não Supervisionados não temos uma coluna "target" nos dizendo com certeza o valor real do grupo que cada "ponto" pertence.
Top comments (0)