Augmented Analytics — Processo de Coleta & tratamento de Dados
Conforme apontado no artigo anterior, para o processo de coleta de dados as ferramentas de “Augmented Analytics” utilizam-se essencialmente de Machine Learning para automatizar o processo.
A maior parte das ferramentas focam na orquestração do fluxo de atualização de dados e na apresentação dos dados. Mas nem todos os serviços de Machine Learning abrangem todo o processo de coleta e tratamento de dados, ferramentas como o AWS Sagemaker ajudam você a gerenciar a complexidade inerente a qualquer solução de ML, mas esperam que você tenha engenheiros em sua equipe capazes de construir e entender o código. Essas ferramentas se concentram mais na camada de processamento dos dados. Ferramentas como o Alteryx se concentram mais na camada de apresentação dos dados, fornecendo interfaces de usuário sem código para integrar o ML básico.
No infográfico a seguir, busco sumarizar como isto ocorre:
Como podem ver, na etapa de coleta e tratamento as ferramentas de Augmented Analytics que se propõem a fazer a carga e tratar os dados, geram economia no tempo de processamento e geram a documentação (catálogo de dados) para otimizar o processo de Governança e garantindo a produtividade tanto dos engenheiros, quanto dos cientistas de dados, bem como dos usuários finais, além de garantir a qualidade do dado que estamos utilizando e facilitar o processo de adequação as leis de proteção de dados.
Em 2020 vários dos fornecedores de plataformas tradicionais de BI & Analytics fizeram aquisições importantes de empresas startups que possuíam ferramentas especializadas nos processos de coleta e tratamento de dados utilizando ML e Inteligência Artificial, podemos ressaltar os seguintes casos:
· Hitachi Vantara & Waterline Data — A Waterline que possui ferramenta de catalogo de dados utilizando Machine Learning;
· Informatica & Compact Solutions — A Compact Solutions possui ferramenta de Governança de dados (Enterprise Data Catalog) voltada para o ambiente mainframe.
· Qlik & Blendr.io — A Blendr.io possui uma solução de integração de dados em nuvem (APIs) é um provedor iPaaS. A solução vai permitir que a Qlik possa expandir sua solução na área de integração de dados automatizando processos trigger.
· Databricks & Redash — A Redash complementou a parte de visualização de dados das soluções Databricks;
Como podem ver, cada vez mais os grandes fornecedores de soluções de análise de dados buscam melhorar a produtividade desta etapa fundamental para a transformação digital, que é a coleta, tratamento, análise e apresentação dos dados que darão subsídios para tomada de decisões mais assertivas e otimizadas.
O mercado de dados se torna a cada dia mais sofisticado e as ferramentas para sua manipulação cada vez mais completas. Isso nos remete a necessidade de capacitação dos profissionais da área e da mudança cultural nas empresas para cada vez mais basearem-se em dados na tomada de decisão.
Fontes:
Blog Xoriant: Augmented Analytics: Accelerating Data Insights Into Actions — https://www.xoriant.com/blog/big-data-analytics/augmented-analytics-accelerating-data-insights-into-actions.html
Site Medium “Dataiku x Alteryx x Sagemaker x Datarobot x Databricks” — https://towardsdatascience.com/dataiku-vs-alteryx-vs-sagemaker-vs-datarobot-vs-databricks-b3870bd34813
Site Solutions Review — https://solutionsreview.com/business-intelligence/top-big-data-and-analytics-mergers-and-acquisitions-of-2020/