Os 5 erros mais comuns no portfólio de iniciantes ou aspirantes à ciência de dados

Henrique Junqueira Branco
gb.tech
Published in
6 min readJul 13, 2021

--

Lápis, borracha e 3 agendas, uma sob a outra | Foto de Savannah Wakefield na Unsplash

Se você está iniciando agora sua jornada na área de ciência de dados, ou pretende migrar de carreira, já deve ter ouvido falar sobre o famoso portfólio de projetos pessoal. Existem inúmeros vídeos como “x passos para construir seu portfólio” ou “Como construir um portfólio de sucesso”.

A ideia deste artigo não é trazer mais do mesmo!

Vou trazer meu ponto de vista sobre portfólio e algumas dicas que, talvez, nunca alguém tenha mencionado sobre!

Importância do portfólio

Eu considero o portfólio não só importante, mas fundamental para quem está iniciando em ciência de dados ou quem deseja migrar para a área. Por quê? Não é só por demostrar suas hard skills, como muitos dizem.

Com ele, você demonstra outras habilidades que vão muito além das técnicas. Quando eu olho um portfólio, me pergunto coisas como:

  • O problema em questão foi bem definido?
  • A comunicação escrita foi bem elaborada? Inclusive, comunicação não técnica, para que outras pessoas possam entender
  • Qual a lógica usada para solucionar o problema em questão?
  • Quais ferramentas foram utilizadas e qual o nível de domínio sobre elas?
  • Como o projeto foi estruturado, de uma forma geral?
  • O projeto resolve o problema para o qual ele foi proposto?
  • Existe alguma análise de negócio ou insights interessantes no projeto?

As perguntas acima direcionam muito mais para habilidades comportamentais (comunicação, organização, curiosidade, clareza) do que para parte técnica em si. E pouco se fala sobre tais habilidades hoje em dia.

Erros mais comuns

1. Portfólio não se resume a código puro

Montar seu portfólio no GitHub é uma excelente ideia, desde que não seja pura e exclusivamente código! Um mínimo de contextualização sobre o problema é necessário, e análise dos resultados também. Essa parte é inerente ao projeto e não envolve código. Nunca comece um portfólio ou projeto desta forma:

import pandas as pd
import numpy as np
...

Como quem está avaliando seu projeto consegue medir sua capacidade de comunicação escrita desta forma? Qual é o problema que você resolve? Percebam que “prever preço de imóveis” não é um problema, mas sim o objetivo final. Descrever de forma sucinta o problema é fundamental. Eis aqui minha sugestão de início para o projeto acima:

O mercado imobiliário tem sido objeto de diversos estudos e pesquisas nos últimos tempos. A crise financeira, que afeta a economia, impactou significativamente os investimentos e ganhos do setor. Esse cenário estimula o aumento do interesse em estudos de previsão de demanda com base nas características desse mercado, dos imóveis e do entorno desses imóveis.

Neste contexto, o principal objetivo deste projeto é desenvolver um sistema de avaliação imobiliária, utilizando a metodologia de regressão linear, que é uma das técnicas de aprendizagem de máquina.

O projeto viabiliza uma melhor acurácia no preço de imóveis, sendo uma solução viável para os seguintes casos:

1- Preços abaixo do mercado: resulta em perdas financeiras pelo lado das imobiliárias

2- Preço acima do mercado: acarreta em um tempo demasiadamente longo para encontrar um possível comprador

Problema definido, solução proposta. Agora sim vem o código… =)

Desta forma, pessoas que não são da área técnica, RH por exemplo, conseguem entender perfeitamente qual a ideia principal do projeto.

2. Negócio é mais importante do que código

Pegando o gancho do projeto acima, supondo que nós desenvolvemos o nosso modelo que, na hora de fazer uma previsão, tenhamos o seguinte resultado:

>>> print(previsao)
-100000

Maravilha! Nosso modelo funciona! O código roda! Vamos comemorar!

Imagem de plateia com as mãos erguidas em um show
Photo by Anthony DELANOIX on Unsplash

Mas, esperem… qual é o nosso objetivo mesmo? Previsão de preço de imóveis, certo? Ou seja, o preço do imóvel previsto foi menos cem mil

Alguns comentários aqui:

  • O código “cospe” um número. Quem transforma o dado em informação é o ser humano. Faz sentido um preço de menos cem mil? Provavelmente não, concorda? Há algo de errado com nosso modelo de previsão…
  • E em que unidade é esse valor? Dólares, reais, euros? A máquina não entende unidades, somente números. Interpretar o resultado é de responsabilidade de analista/cientista de dados!

Para o negócio, essa previsão não faz sentido, ou seja, o nosso modelo de previsão construído não atende o objetivo para o qual ele foi proposto, embora ele funcione!

3. Achar que tudo se resume a nomes bonitos, como machine learning, deep learning ou inteligência artificial

Durante o chat de uma das aulas de meu MBA, surgiu a seguinte pergunta: “Preciso fazer deep learning. Tenho que aprender a programar?”.

Essa pergunta me fez refletir sobre a onda existente com uso de nomes bonitos como “machine learning”, “deep learning” ou “inteligência artificial”. No fundo, tudo se resume à matemática e estatística.

Estas duas ciências, porém, não são somente modelagem preditiva. Você consegue responder a uma pergunta de negócio usando otimização, por exemplo, que não é “machine learning”, “deep learning”, ou “inteligência artificial”. E, ainda sim, você resolve o problema!

Outro caso interessante é dizer a quantidade mínima de itens necessária para retirar de uma linha de produção e garantir que os testes feitos neles podem ser expandidos para o lote, por exemplo.

Eis acima um problema de estatística inferencial, que não usa esses termos que estão no hype, e mesmo assim resolve um belo problema! Supondo que você chegue à conclusão com o número mínimo de amostras que a empresa, que antes coletava 1 em cada 100 itens para realizar testes de qualidade, passe agora a coletar 1 em cada 500, e, ainda sim, os testes, agora com o número de amostragem reduzido, continuem sendo representativos para o lote todo. Ou seja, antes 1 % dos itens eram retirados para testes. Agora 0,2 %, um aumento de 5 vezes no número de produtos a cada 500 itens que vão para produção e não mais para testes! Supondo que a empresa produza 1 milhão de itens por dia, seriam 2.000 produtos a mais por dia indo para produção. Nada de “machine learning”, “deep learning”, ou “inteligência artificial”. Problema resolvido!

4. Projeto desorganizado

Demostrar conhecimentos é importante, de fato. Mas quando você faz isso de forma desorganizada, você deixa vir a tona uma característica comportamental: o seu código/projeto/portfólio te representa! Ele diz muito sobre como você tira o raciocínio da sua mente e coloca em prática. Mesmo não sendo uma verdade absoluta, é essa a impressão que ele passa, e é a que fica. Portanto, vale repensar sobre estruturar e organizar seu projeto.

Aqui eu recomendo usar seções, numerações, índices e outros itens que auxiliam a melhor dividir seu projeto. Alguns exemplos de divisões:

  • Definição e escopo do problema em questão
  • Coleta de dados
  • Pré-processamento e tratamento
  • Criação de novas colunas
  • Modelagem
  • Avaliação dos resultados

Um projeto simples bem organizado, na minha opinião, vale muito mais do que um complexo sem um mínimo de organização ou estrutura. A reflexão por trás é: eu quero alguém desorganizado no meu time? Lembre-se que as características comportamentais também são tão importantes quanto as técnicas, e elas estão escondidas nas entrelinhas do seu portfólio!

5. Não saber explicar o seu próprio projeto

Esta é uma complementação ao item acima. De nada adianta você ter um projeto organizado se você não consegue explicar o próprio projeto. E explicar remete a duas vertentes: técnica e não técnica.

Em um primeiro momento, você pode ser questionado pelo RH sobre seu projeto, e não adianta você “querer falar bonito” se a pessoa que está do outro lado não te entende. A comunicação aqui é primordial, pois um(a) cientista de dados deve saber quando usar ou não uma linguagem técnica.

Em um outro momento de uma entrevista, talvez com alguém da área técnica e gestor (certifique-se de que o ouvinte saiba da área técnica antes de sair despejando termos), você pode usar uma linguagem mais técnica, demostrando domínio e poder de comunicação na apresentação dos resultados!

Conclusão

Trouxe neste artigo uma visão peculiar, que nunca li a respeito, sobre portfólio e as entrelinhas nele escondidas. Eu mesmo já cometi quase todos os erros mencionados acima, não minto. Mas todos são passíveis de reflexão e correção ao longo da sua trajetória de iniciante ou de migração de carreira.

O portfólio esconde nuances comportamentais sobre comunicação e organização que ninguém nunca havia me falado sobre. Percebi só com tempo e experiência, quando comecei a avaliar outros portfólios, com olhos de um profissional que atua na área.

Meus contatos

Para quem gosta dos meus conteúdos, ou prefere trocar ideias, fiquem a vontade para entrar em contato comigo através do meu LinkedIn.

--

--

Henrique Junqueira Branco
gb.tech

Life-time learner data scientist with great passion for new insights and technologies