BIG-Data & Analytics — Selecionando Dados
Que a metodologia de projetos de Ciência de Dados segue 8 etapas que vão e voltam de forma não linear vocês já sabem, correto?
Metodologia CRISP — DM
Hoje vamos falar sobre a seleção de dados e os termos que navegam sobre ela:
2 — Selecionar Dados
Após entendermos o problema de negócios e entrarmos em acordo com o demandante do projeto sobre a ideia de solução que tivemos durante o processo de descoberta da etapa 1, vamos a busca dos dados que nos trarão as respostas para nossas perguntas.
Nesta fase começamos a levantar as fontes geradoras de “dados”, que podem ser os sistemas internos da empresa como um ERP (Enterprise Resource Planning), sistemas de Planejamento de Recursos Empresariais que interliga todos os dados e processos da organização em um único sistema. Podem vir de ferramentas de colaboração como e-mails, planilhas eletrônicas, intranet, portais internos. Mas também podem ser externos como bases de dados de e-mail marketing, redes sociais, pesquisas, vídeo, imagens, gravações de áudio, de equipamentos inteligentes (IoTs — Internet Of Things) como ar-condicionado, tratores, automóveis etc.
Este emaranhado de dados pode ser dividido entre “Dados Estruturados” (aqueles que vem em bancos de dados relacionais, ou tabelas = SQL) ou “Dados Não Estruturados” (aqueles que são em formatos diversos como os vídeos, áudio, imagem, feed de redes sociais, log de equipamentos inteligentes = NoSQL).
Na etapa de seleção de dados sabemos a pergunta e vamos procurar nestas fontes as possíveis respostas. Por exemplo: se o problema identificado é entender o perfil do cliente da empresa, podemos encontra-lo nos sistemas internos da empresa (dados estruturados) mas também devemos buscar informações externas (dados não estruturados) de redes sociais, do comportamento do cliente na loja, capturado pelas câmeras de segurança, etc.
Aprendemos aqui o que são os tais “Dados estruturados e não estruturados” ok? Agora vamos falar sobre outros termos muito utilizados na área e que são básicos desta etapa de projeto, como o “Data Scraping”. O “Data Scraping” é uma aplicação para varredura de sites, aplicativos com o intuito de coletar dados de acordo com o interesse do nosso “problema de negócios”. Os resultados desta coleta de dados serão, minerados e estruturados em um formato padrão como CSV, XML ou JSON, para que possam ser utilizados depois.
Outro termo muito utilizado é o “Data ingestion”, ou ingestão de dados. Assim como a coleta do “Data Scraping”, das bases dos “ERPs”, vídeos, imagens, áudios que a empresa tenha a respeito do problema de negócios a ser resolvido, tudo isso só terá valor se estiver unido em um único lugar, separados não conseguiremos ver as correlações dessas informações certo?
Aí surge a necessidade de colocar tudo em um mesmo lugar “fazer a ingestão de dados” neste lugar centralizado, que é o conceito de “Data Lake” ou “Lago de Dados”.
Conforme na figura abaixo a ideia de centralizar todos os dados referentes ao estudo que faremos é com o intuito de termos a “visão 360° graus” (360° View) do problema alvo:
A ideia de coletar dados de diversas fontes, em diversos formatos e armazená-los em um único ambiente é para permitir que possamos desenvolver as “experiências” da “Ciência de Dados” em um ambiente controlado.
Onde ele possa ver com clareza quais são as fontes que se complementam, quantas mais seriam necessárias para compor uma visão ampla do alvo do estudo.
Os dados que são “ingeridos” (Data Ingestion) são considerados “Dados Brutos” (Raw Data), para que possamos iniciar o trabalho de análise de dados, precisamos “explorar os dados” (Data Exploration Analysis).
Nesta etapa o cientista de dados utilizará seus conhecimentos da área de negócios que atua, seus conhecimentos de ferramentas técnicas para manipulação de dados, como linguagem de programação SQL, NoSQL, Phyton, R, Java, infraestrutura de nuvem (Cloud computing) e métodos estatísticos como a “análise descritiva”, que consiste em validar o conteúdo das diferentes repositórios de dados e suas características “quantitativas” e “qualitativas”. A análise descritiva em termos estatísticos tem como principal objetivo resumir, sumarizar e explorar o comportamento dos dados. Após esta análise conseguiremos avaliar se já possuímos informação suficiente para começar o trabalho de resolução do problema de negócios ou se precisaremos buscar mais fontes de dados para complementar informações que não tenhamos identificado em quantidade significativa para tirarmos alguma conclusão técnica.
Esta etapa é longa e exige muito conhecimento técnico de ferramentas de manipulação de dados bem como de entendimento de método de pesquisa estatística.
É importante nesta etapa definirmos um volume mínimo que contenha o máximo de informação para a análise correta do “problema”, por isso é nesta etapa que definimos qual seria o “MVD” (Minimal Viable Data) para que possamos fazer a validação do nosso “MVP” (Minimal Viable Product) final. Para seleção desta amostra ideal existem métodos estatísticos adequados de acordo com o tipo de análise que será realizada.
As metodologias probabilísticas como “Amostra Aleatória simples, Amostra Sistemática, Amostra Estratificada Amostra por Conglomerado”, são algumas das mais utilizadas. Mas como disse, para cada tipo de problema uma metodologia será a mais indicada.
Como podem ver, mais uma vez discorremos por vários termos da área de ciências de dados que quando ditos soltos por aí, complicam a aprendizagem de quem está iniciando nesta área, mas quando colocamos os termos dentro das suas funcionalidades, fica bem mais fácil de compreender não?
Na próxima semana vamos falar sobre a etapa 3 de “Exploração dos Dados” (Exploratory Data Analysis — EDA)
Fontes:
Ribeiro, Janete: Pesquisa de Marketing, Editora SENAC — Série Universitária, São Paulo
A autora:
· Embaixadora da Stanford University para o projeto Women In Data Science — WIDS;
· Voluntária Grupo Mulheres do Brasil;
· Especialização em Gestão de Dados (CDO Foundations) pelo MIT — Massachusetts Institute of Technology — EUA;
· Mestrado em Adm. Empresas pela FGV;
· Graduada em Adm. Empresas pela FAAP;
· Professora Universitária no SENAC para os cursos de Pós-Graduação em BIG Data e Gestão do Conhecimento e Inovação e para os cursos de graduação a Distância do SENAC;
· Autora dos livros:
· A Atuação do Profissional de Inteligência Competitiva, Publicit, 2015
· Pesquisa de Marketing, Série Universitária, SENAC, 2017
· Liderança/Participação em Comunidades Digitais: Women In Blockchain, ABINC Data & Analytics, FINTECHs & Newtechs, Marco Civil IA
· Empreendedora na Consultoria estratégica Analytics Data Services;
· Atuação como executiva nas áreas de planejamento estratégico de marketing e gestão e governança de dados em empresas como Unisys, Teradata, Santander, IBM dentre outras