Inteligência Artificial e a Qualidade de Dados

Janete Ribeiro
4 min readJul 9, 2020

--

O IDC através de um estudo recente, apontou que uma das principais prioridades de investimento das empresas é a Transformação Digital. Nele o IDC aponta que 53% de todo o investimento em TI estará em transformação até 2023.

A pandemia e seu consequente impacto na economia e a migração repentina para o trabalho remoto, impulsionou as empresas a buscarem imediatamente sua migração para um ambiente de nuvem (cloud computing), utilizar mais os meios digitais para todo processo de negócios (adoção da IA) e ampliar sua governança de dados (coleta, compartilhamento, segurança e privacidade).

Neste cenário a qualidade dos dados coletados e armazenados se tornou mais importante que nunca, afinal a ingestão e armazenamento de dados geram custos, de processamento e armazenamento, além do esforço dos profissionais envolvidos.

Seria possível utilizar a inteligência artificial em benefício da própria inteligência artificial? Sim!

Muitas empresas pensam em começar um projeto de IA aplicando aos processos complexos de negócios, porém para que a IA seja viável e assertiva nos processos complexos de negócios a empresa precisa ter dados “confiáveis”. Para ter dados confiáveis, muitas vezes as empresas gastam meses de trabalho árduo de sua equipe de engenheiros e cientistas de dados na tentativa de selecionar na imensidão de dados brutos, algo que seja estratégico.

Se aplicarmos a IA no ciclo de vida de dados, desde a coleta até a disponibilização para consumo (análises) reduziríamos o tempo de adoção e implementação de vários processos estratégicos de IA e de Analytics nas empresas.

A seguir vou listar alguns testes de qualidade de dados básicos, que toda empresa deve fazer:

-Teste de integridade dos dados — Garantir que os dados estejam completos;

-Teste de transformação de dados — Garantir que os dados passem com êxito por transformações;

-Teste de qualidade de dados — Garantir que dados ruins, incompletos sejam regularizados;

-Teste de comparação de banco de dados — Comparar o banco de dados de origem e o destino, apesar de sua estrutura e volume diferirem;

-Teste de comparação de dados — Comparar dados entre diferentes pontos do fluxo de dados;

-Teste de ponta a ponta — Teste final do sistema, para garantir que a ingestão de dados ocorreu com sucesso de fim-a-fim;

Como podem observar este é um processo ideal para aplicação de IA, pois é repetitivo e serve para qualquer banco de dados.

Existem algumas ferramentas de mercado que já possuem esta tecnologia para garantir através do uso de “machine-learning” todas estas validações no processo de ingestão de dados.

Vou apresentar um exemplo da série de e-books “O’Really” sobre desenvolvimento de Machine Learning com o uso de uma ferramenta opensource muito conhecida, o Tensorflow:

O TensorFlow oferece uma biblioteca que ajuda o processo de validação de dados, chamada TensorFlow Data Validation ou TFDV. A biblioteca TFDV permite que você execute algumas das análises que listamos acima.

Veja abaixo o teste comparativo de bancos de dados:

Fonte: Building Machine Learning Pipelines by Hannes Hapke, Catherine Nelson

Como podem ver, a ferramenta gera as estatísticas descritivas de ambos datasets fazendo as análises comparativas pertinentes.

Existem outras ferramentas mais potentes como as soluções Talend para ingestão, tratamento e segurança de dados, que é toda “Drag and Drop”, não requer esforço de programação, apenas a configuração inicial para que os mecanismos de IA possam tratar todo ciclo de vida dos dados até a disponibilização para consumo no ambiente de nuvem.

Outra ferramenta nesta mesma linha, são as soluções de DataStage e Watson da IBM, que juntas compõem a solução de automação do processo de governança de dados.

Como podem ver, o primeiro passo de uma empresa na adoção de IA pode ser automatizando seu processo de coleta e tratamento de dados, para viabilizar a qualidade dos dados a serem utilizados quando evoluir seu projeto de IA para os processos estratégicos da empresa.

Fontes:

Tech Republic site — https://www.techrepublic.com/article/idc-digital-transformation-spending-will-eat-up-50-of-it-budgets-by-2023/

IBM BIG-Data HUB — https://www.ibmbigdatahub.com/blog/data-quality-key-building-modern-and-cost-effective-data-warehouse

Building Machine Learning Pipelines by Hannes Hapke, Catherine Nelson –https://www.oreilly.com/library/view/building-machine-learning/9781492053187/ch04.html

Talend Blog — https://www.talend.com/blog/2017/01/12/what-is-data-stewardship/

A autora:

· Embaixadora da Stanford University para o projeto Women In Data Science — WIDS;

· Voluntária Grupo Mulheres do Brasil;

· Especialização em Gestão de Dados (CDO Foundations) pelo MIT — Massachusetts Institute of Technology — EUA;

· Mestrado em Adm. Empresas pela FGV;

· Graduada em Adm. Empresas pela FAAP;

· Professora Universitária no SENAC para os cursos de Pós-Graduação em BIG Data e Gestão do Conhecimento e Inovação e para os cursos de graduação a Distância do SENAC;

· Autora dos livros:

· A Atuação do Profissional de Inteligência Competitiva, Publicit, 2015

· Pesquisa de Marketing, Série Universitária, SENAC, 2017

· Liderança/Participação em Comunidades Digitais: Women In Blockchain, ABINC Data & Analytics, FINTECHs & Newtechs, Marco Civil IA

· Empreendedora na Consultoria estratégica Analytics Data Services;

· Atuação como executiva nas áreas de planejamento estratégico de marketing e gestão e governança de dados em empresas como Unisys, Teradata, Santander, IBM dentre outras

--

--

Janete Ribeiro
Janete Ribeiro

Written by Janete Ribeiro

AI/ML Specialist, Chief Data Officer Certified by MIT, MsC Business Administration, SENAC University Professor

No responses yet