Introdução à Ciência de Dados
Oi meninis, turo bom?
Tem interesse em saber mais sobre ciência de dados? Veio ao lugar certo! Aqui explicarei o que é, suas principais áreas, aplicações bem bacanas e as disciplinas do curso que você pode cursar caso se interesse.
1. Ciência + Dados
As definições de ciência e dados (ou data science) compõem perfeitamente uma definição para ciência de dados, e vou te explicar o porquê:
A ciência pode ser descrita como "o esforço para descobrir e aumentar o conhecimento humano de como o universo funciona".
Já os dados "são simples observações sobre o estado do mundo". Esse estado pode ser qualquer coisa: curtidas de uma foto no Facebook, o gênero de uma música, número de commits em um dia no GitHub, a quantidade de sanitários de uma escola, enfim... qualquer coisa mesmo.
Então, um significado para ciência de dados poderia ser o esforço para explorar, descobrir e extrair conhecimento sobre um assunto através de observações.. Na prática, esse conhecimento geralmente se dá investigando, inferindo através de estatística e/ou tentando adivinhar uma "função mágica" que explique os dados a partir de aprendizagem de máquina (ou machine learning).
2. Principais atuações
Agora que você já tem uma ideia do que é data science, veremos o que se pode ser feito neste ramo de computação conhecendo as suas principais áreas. Antes de começar, adianto que você pode (e provavelmente vai) trabalhar com mais uma área, pois elas estão bastante interligadas.
A ciência de dados pode ser subdividida em duas seções: descritiva e a preditiva.
2.2. Ciência de Dados Descritiva
A ciência descritiva compreende a área da exploração e investigação dos dados, geralmente com a finalidade de informar o público sobre um determinado assunto, sempre sobre algo que já passou
.
Para isso, a análise feita tipicamente parte de um conjunto de perguntas que o cientista busca responder através dos dados, conceitos de estatísticas e domínio sobre o assunto, geralmente na forma de gráficos bonitos e bem explicativos.
Por exemplo, suponha que você queira fazer uma investigação sobre o gasto da cota parlamentar dos deputados da legislatura atual: quem gasta mais, em que, quais os gastos por estados, partidos, e por aí vai. Para responder a estas perguntas, você precisará agrupar e sumarizar os dados do uso da cota.
Aplicações tops:
- Todos os posts do Nexo Gráfico são incríveis, com assuntos atuais (muitos sobre o Brasil) e gráficos lindos;
- As publicações do The Pudding também são incríveis e servem muito de inspiração no quesito visualização da informação;
- Os relatórios do nosso professor de ciência de dados descritiva Nazareno Andrade. Achei alguns feitos por ele aqui;
2.3. Ciência de Dados Preditiva
A ciência de dados preditiva usa os dados do passado para tentar prever o futuro
. O cientista utiliza estatística, técnicas de aprendizagem de máquina (que é muito por cima uma mistura de álgebra linear, derivadas, integrais, somatórios, funções e outros temperos) para que o algoritmo descubra uma "função mágica" que ache um padrão nos dados conhecidos e os explique de forma a inferir um dado que não se conhece ainda.
Por exemplo, suponha que você queira comprar uma casa de X quartos, no bairro Y, com ano de construção Z mas que não está à venda ainda, portanto não se sabe ainda o preço. Suponha também que você tem um conjunto dessas informações sobre outras casas que já foram vendidas, e que por isso possuem preço de venda. O cientista de dados preditivos usará algoritmos que irão aprender, a partir dos dados das vendas de casa passadas, quais são os critérios mais importantes e definitivos para a definição do preço de uma casa e desta forma estimar o preço da casa que você quer. Top, né? :D
Aplicações tops:
Esta é a área mais promissora da atualidade. Com a descoberta das redes neurais, os algoritmos são cada vez mais inteligentes e utilizados em diferentes áreas como medicina, arte, música, etc.
- Detecção de câncer de pele usando Redes Neurais. (link)
- Criando obras de arte a partir de imagem e estilo de pintura.(link)
- A partir de um vídeo, recria movimentos de dança e faz parecer que a pessoa realmente esta dançando. (link)
PS: Não esquecer da engenharia de dados
A parte de engenharia de dados responsável por processar e padronizar os dados a fim de deixá-los manipuláveis, lindos e cheirosos é uma tarefa que todo cientista de dados vai precisar fazer alguma vez na vida, já que nem tudo são flores e nem todos os dados estão padronizados e/ou completos.
3. O que você precisa para começar na área
Gostou? Está pronto para começar a trilhar em destino à Ciência de dados? Tenho algumas dicas para você.
3.1. Base
É fortemente aconselhado que se tenha uma boa base de cálculo, estatística, programação e álgebra linear. Mas não precisa enlouquecer para ser o maior especialista no assunto! Essa base é importante para entender o que está acontecendo por baixo das coisas que você está fazendo.
A notícia boa é que o nosso curso abrange bastante estas áreas, então fique tranquili! :D
3.2. Disciplinas específicas
Você pode cursar as disciplinas ofertadas pelo curso que relacionadas à ciência de dados.
- Ciência de Dados Descritiva: ofertada no 1º semestre do ano letivo pelo professor Nazareno <3 com ênfase na criação de relatórios exploratórios utilizando estatística sobre assuntos muito legais, como música, cinema e séries;
- Ciência de Dados Preditiva: ofertada no 2º semestre do ano letivo pelo professor Leandro <3 com foco em Machine Learning e um pouco de Deep Learning;
- Visualização da Informação: ofertada no 2º semestre do ano letivo pelo professor Nazareno <3 com ênfase em técnicas de melhores formas de visualizar a informação;
- Recuperação da Informação: ofertada no 1º semestre do ano letivo pelo professor Leandro <3 com foco em processamento de linguagem natural, sistemas de recomendação, análise de sentimento, etc.
3.3. Cursos online
Uma outra forma bem eficiente de aprender ciência de dados é fazer cursos online em plataformas como Udacity, Coursera, Udemy, entre outros.
Nesta planilha estão alguns cursos recomendados por Marianne Linhares, além de diversos outros materiais para quem se interessou e quer saber mais sobre o assunto.
4. Foi eterno enquanto durou...
... mas o post chegou ao fim! :(
Eu amei fazê-lo e espero ter apresentado o básico de ciência de dados de forma clara e compreensível. Qualquer dúvida, reclamação ou sugestão, fique à vontade para adicionar comentários neste post
ou conversar comigo fora dele: é só pesquisar 'hadrizia' nas plataformas, provavelmente serei a primeira (e única) a aparecer haha.
5. Obrigada!
Muito obrigada pela leitura! Fique atento: em breve, teremos novos artigos de contribuidores do OpenDevUFCG aqui no dev.to. Acompanhe o OpenDevUFCG no Twitter, no Instagram e, claro, no GitHub.
Top comments (3)
Muito bom 👏
Uma excelente introdução! Já quero a continuação 😄
Show!