Os desafios de Dados e de Machine Learning na vida real

....mesmo com toda a automação promovida por uma esteira de desenvolvimento de modelos, diretores, gestores e analistas de empresas no mundo todo começaram a entender que, na vida real, essa “esteira” é muito maior e mais complexa do que podemos imaginar ou vislumbrar nas notícias, nas competições de Machine Learning ou no mundo acadêmico. 

Muito se fala sobre a democratização da ciência de dados: codificando toda a matemática, estatística, álgebra linear e cálculo em um modelo pronto para uso (framework), ou ainda escondendo toda essa complexidade atrás de uma interface (supostamente) simples amigável de uma ferramenta de Automação em Modelagem (AutoML), com um botão “mágico” e promessa de ganhos e resultados, para os mais diferentes mercados: crédito, fraude, saúde, internet, indústria, varejo etc.

Na minha experiência percebi que, mesmo com toda a automação promovida por uma esteira de desenvolvimento de modelos, diretores, gestores e analistas de empresas no mundo todo começaram a entender que, na vida real, essa “esteira” — a condução de um projeto de desenvolvimento de modelos estatísticos — é muito maior e mais complexa do que podemos imaginar ou vislumbrar nas notícias, nas competições de Machine Learning ou no mundo acadêmico.

Para que se possa colocar em produção um projeto como estes, utilizando Machine Learning como motor de treinamento, é necessária uma visão processual madura, que contempla desde a infraestrutura computacional de uma empresa até a governança de dados e sistema, passando pela visão de negócio, processos e equipe.

Ciência de Dados

E aí eu pergunto: o Cientista de Dados compreende quais artefatos de modelagem são necessários para conseguir o melhor desempenho em determinada infraestrutura?

Compreendendo, ele sabe gerar todos estes artefatos? E a infraestrutura, está preparada para implantar um algoritmo complexo (imagine, por exemplo, um Rotation Forest) e responder com latência de milissegundos as requisições online de API?

Engenharia de Dados

O Engenheiro de Dados preparou as variáveis preditivas para serem atualizadas na frequência necessária para que o modelo não perca o seu poder preditivo? Imagine os danos causados por um modelo que passe a fazer predições errôneas apenas porque utilizou dados distintos em seu treinamento?

Arquitetura de Soluções

O arquiteto de soluções levou em conta a escalabilidade da infraestrutura para, digamos, um evento como a Black Friday? E os custos, a governança, os versionamentos, a LGPD? Como garantir que todo esse processo seja executado por grandes equipes, em tempo hábil para gerar valor para suas devidas áreas de negócio? Está tudo estruturado com aplicações de processos em DevOps, MLOps e DataOps?

Mas como eu monto meu time?

A resposta para essas questões se divide em dois grandes caminhos: automação e capacitação de pessoas. A primeira vai permitir que as tarefas e os processos repetitivos, críticos e chatos — aqueles responsáveis por alto turnover nessa área — sejam automatizados, reduzindo drasticamente os erros operacionais e liberando o tempo dos profissionais para que eles possam focar nas dores das suas áreas de negócio, trazendo valor de verdade para a empresa.

A segunda revela um problema maior: a demanda do mercado por pessoas com capacitação técnica para solução de problemas de dados e analytics só aumenta. As empresas buscam ser data driven, mas têm dificuldade em construir um time qualificado para isso. Parece não haver profissionais qualificados disponíveis.

Minha aposta está na formação das pessoas que estão ingressando nessas áreas e na capacitação constante de quem já está no mercado, podendo inclusive liberar tempo de suas agendas com o uso de ferramentas de integrações sistêmicas e automação de processos críticos.

Conclusão

Na hora de levar uma esteira de dados para o mundo real, é essencial que os algoritmos e os artefatos sejam compatíveis com a infraestrutura, as variáveis estejam atualizadas e o modelo possa escalar quando requisitado. Nos próximos artigos vamos explorar um pouco mais cada um destes pilares — ciência de dados, engenharia de dados e arquitetura de soluções — buscando desvendar um pouco mais as particularidades de cada área e suas consequências para o negócio do cliente.


Estamos disponíveis para conversar e para contribuir com empresas que desejam transformar digitalmente a sua trajetória.