Ferramentas de “Auto-Machine Learning”

Janete Ribeiro
4 min readNov 12, 2020

--

Fonte: Desconhecida

Muitos já devem ter ouvido falar, alguns já devem estar se utilizando delas e muitos gostariam de tê-las. Estamos falando das ferramentas de auto machine learning (AutoML), que são em verdade a inteligência artificial utilizada para gerar inteligência artificial.

Fonte VectorStock

Ou seja, há um grupo entre os estudiosos de tendências que apontam que em breve não haverá mais a necessidade de termos cientistas de dados programadores. Os cientistas de dados deverão utilizar seu tempo em atividades mais nobres como no entendimento do problema de negócios e busca das soluções, do que escolhendo qual modelo estatístico melhor irá performar.

Outra linha de pesquisadores já crê que sempre haverá a necessidade de manipulação de dados manualmente, logo sempre os cientistas de dados irão investir boa parte do seu tempo programando e tratando bases de dados.

Eu particularmente concordo com ambas as previsões. Se por um lado as ferramentas de AutoML nos trazem a facilidade etapa de treinamento dos modelos, o maior desafio da ciência de dados, que é a preparação dos dados, segue demandando olhos atentos e análise qualitativa na etapa de tratamento e transformação de dados. Temos sim ferramentas que já permitem minimizar o processo de ETLs/LTEs, porém o engenheiro de dados ainda precisa conhecer bem linguagens de programação como Phyton, SQL dentre outras para extrair o melhor dessas ferramentas de tratamento de dados.

Mas outra etapa bem demorada dos projetos de Inteligência Artificial e Ciência de Dados em geral, é o treinamento dos modelos. Esta sim as ferramentas de auto machine learning já estão bem adiantadas e permitem um excelente ganho de produtividade.

Ganho de produtividade não significa substituição total de um profissional humano. Significa liberá-lo para as demais atividades, deixando ao cargo da AUTO-ML as atividades que requerem maior velocidade e acuracidade de execução repetitiva.

As ferramentas de AutoML, se utilizam da técnica de hiperparâmetros, ou seja, quando um parâmetro é utilizado para controlar todo os parâmetros utilizados no processo de avaliação do aprendizado de máquina (ML).

O modelo estatístico nada mais é que, uma série de parâmetros que precisam ser aprendidos a partir dos dados. Ao treinar um modelo com os dados existentes, podemos ajustar os parâmetros do modelo. Quando falamos de hiperparâmetros, estamos fado de valores atribuídos antes do treino regular do modelo. Esses parâmetros expressam as propriedades importantes do modelo, como sua complexidade ou a rapidez com que ele deve aprender, mediante os critérios avaliados pelo cientista de dados.

Vamos citar alguns exemplos de hiperparâmetros que podem ser configurados nestas ferramentas:

· Learning Rate (Nível de aprendizado);

· Number of Epochs (quantidade de interações);

· Bayesian predictions (estatisticas);

· Teoria de Probabilidades I e II (importância da amostra);

· Monte Carlo Methods (otimização);

No infográfico abaixo tentamos representar como funcionam as correlações executadas pelas principais ferramentas de AutoML para testes de conjuntos (Ensembly Metods):

Fonte: a autora

O ganho de produtividade esta no fato de que se a cada método tivéssemos de codificar modelos para testar as amostras de dados que temos, levaríamos vários dias quando estas ferramentas podem levar apenas alguns minutos, dependendo muito mais da infraestrutura de nuvem que você contratou do que de recursos humanos especializados.

Mas ao final elas apresentam uma lista com os 10 melhores e o cientista de dados é quem vai decidir o que melhor se aplica ao contexto que está trabalhando. Como podem ver, as ferramentas de Auto Machine Learning não vão substituir o cientista de dados e nem o livrar da atividade de codificação de modelos, apenas vem permitir um ganho de velocidade neste quesito.

Gostaria de ver mais sobre esse tema? Em Dezembro 2020 participarei do Congresso Nacional de Ciência de Dados onde vou falar um pouco mais sobre o processo de escolha dos métodos estatísticos para modelos supervisionados e não supervisionados para cada tipo de problema de negócios.

Fontes:

Gartner tech trends 2020: What hyperautomation — https://www.technologymagazine.com/ai/gartner-tech-trends-2020-what-hyperautomation

Forbes: How is Big data & Analytics using ML? — https://www.forbes.com/sites/forbestechcouncil/2020/10/20/how-is-big-data-analytics-using-machine-learning/?sh=ec270c71d295

Automated Machine Learning should worry data science? — https://towardsdatascience.com/automated-machine-learning-shouldnt-worry-data-scientists-9a54dfef0491

Towards Data Science: Hyperparameters Optimization — https://towardsdatascience.com/hyperparameters-optimization-526348bb8e2d

CONACD — Congresso Nacional de Ciência de Dados — https://materiais.abracd.org/conacd

--

--

Janete Ribeiro
Janete Ribeiro

Written by Janete Ribeiro

AI/ML Specialist, Chief Data Officer Certified by MIT, MsC Business Administration, SENAC University Professor

No responses yet