Inteligência Artificial e a Qualidade de Dados
O IDC através de um estudo recente, apontou que uma das principais prioridades de investimento das empresas é a Transformação Digital. Nele o IDC aponta que 53% de todo o investimento em TI estará em transformação até 2023.
A pandemia e seu consequente impacto na economia e a migração repentina para o trabalho remoto, impulsionou as empresas a buscarem imediatamente sua migração para um ambiente de nuvem (cloud computing), utilizar mais os meios digitais para todo processo de negócios (adoção da IA) e ampliar sua governança de dados (coleta, compartilhamento, segurança e privacidade).
Neste cenário a qualidade dos dados coletados e armazenados se tornou mais importante que nunca, afinal a ingestão e armazenamento de dados geram custos, de processamento e armazenamento, além do esforço dos profissionais envolvidos.
Seria possível utilizar a inteligência artificial em benefício da própria inteligência artificial? Sim!
Muitas empresas pensam em começar um projeto de IA aplicando aos processos complexos de negócios, porém para que a IA seja viável e assertiva nos processos complexos de negócios a empresa precisa ter dados “confiáveis”. Para ter dados confiáveis, muitas vezes as empresas gastam meses de trabalho árduo de sua equipe de engenheiros e cientistas de dados na tentativa de selecionar na imensidão de dados brutos, algo que seja estratégico.
Se aplicarmos a IA no ciclo de vida de dados, desde a coleta até a disponibilização para consumo (análises) reduziríamos o tempo de adoção e implementação de vários processos estratégicos de IA e de Analytics nas empresas.
A seguir vou listar alguns testes de qualidade de dados básicos, que toda empresa deve fazer:
-Teste de integridade dos dados — Garantir que os dados estejam completos;
-Teste de transformação de dados — Garantir que os dados passem com êxito por transformações;
-Teste de qualidade de dados — Garantir que dados ruins, incompletos sejam regularizados;
-Teste de comparação de banco de dados — Comparar o banco de dados de origem e o destino, apesar de sua estrutura e volume diferirem;
-Teste de comparação de dados — Comparar dados entre diferentes pontos do fluxo de dados;
-Teste de ponta a ponta — Teste final do sistema, para garantir que a ingestão de dados ocorreu com sucesso de fim-a-fim;
Como podem observar este é um processo ideal para aplicação de IA, pois é repetitivo e serve para qualquer banco de dados.
Existem algumas ferramentas de mercado que já possuem esta tecnologia para garantir através do uso de “machine-learning” todas estas validações no processo de ingestão de dados.
Vou apresentar um exemplo da série de e-books “O’Really” sobre desenvolvimento de Machine Learning com o uso de uma ferramenta opensource muito conhecida, o Tensorflow:
O TensorFlow oferece uma biblioteca que ajuda o processo de validação de dados, chamada TensorFlow Data Validation ou TFDV. A biblioteca TFDV permite que você execute algumas das análises que listamos acima.
Veja abaixo o teste comparativo de bancos de dados:
Como podem ver, a ferramenta gera as estatísticas descritivas de ambos datasets fazendo as análises comparativas pertinentes.
Existem outras ferramentas mais potentes como as soluções Talend para ingestão, tratamento e segurança de dados, que é toda “Drag and Drop”, não requer esforço de programação, apenas a configuração inicial para que os mecanismos de IA possam tratar todo ciclo de vida dos dados até a disponibilização para consumo no ambiente de nuvem.
Outra ferramenta nesta mesma linha, são as soluções de DataStage e Watson da IBM, que juntas compõem a solução de automação do processo de governança de dados.
Como podem ver, o primeiro passo de uma empresa na adoção de IA pode ser automatizando seu processo de coleta e tratamento de dados, para viabilizar a qualidade dos dados a serem utilizados quando evoluir seu projeto de IA para os processos estratégicos da empresa.
Fontes:
Tech Republic site — https://www.techrepublic.com/article/idc-digital-transformation-spending-will-eat-up-50-of-it-budgets-by-2023/
IBM BIG-Data HUB — https://www.ibmbigdatahub.com/blog/data-quality-key-building-modern-and-cost-effective-data-warehouse
Building Machine Learning Pipelines by Hannes Hapke, Catherine Nelson –https://www.oreilly.com/library/view/building-machine-learning/9781492053187/ch04.html
Talend Blog — https://www.talend.com/blog/2017/01/12/what-is-data-stewardship/
A autora:
· Embaixadora da Stanford University para o projeto Women In Data Science — WIDS;
· Voluntária Grupo Mulheres do Brasil;
· Especialização em Gestão de Dados (CDO Foundations) pelo MIT — Massachusetts Institute of Technology — EUA;
· Mestrado em Adm. Empresas pela FGV;
· Graduada em Adm. Empresas pela FAAP;
· Professora Universitária no SENAC para os cursos de Pós-Graduação em BIG Data e Gestão do Conhecimento e Inovação e para os cursos de graduação a Distância do SENAC;
· Autora dos livros:
· A Atuação do Profissional de Inteligência Competitiva, Publicit, 2015
· Pesquisa de Marketing, Série Universitária, SENAC, 2017
· Liderança/Participação em Comunidades Digitais: Women In Blockchain, ABINC Data & Analytics, FINTECHs & Newtechs, Marco Civil IA
· Empreendedora na Consultoria estratégica Analytics Data Services;
· Atuação como executiva nas áreas de planejamento estratégico de marketing e gestão e governança de dados em empresas como Unisys, Teradata, Santander, IBM dentre outras