BIG-Data & Analytics — Explorar Dados, Limpar e Transformar

Janete Ribeiro
5 min readJun 25, 2020

--

Continuando nossa abordagem sobre a metodologia de projetos de ciência de dados e os termos da área, que muitos falam, mas não sabem onde e quando aplicar, vamos falar sobre 3 etapas de uma vez só. Sim, porque em verdade estas etapas não ocorrem linearmente, como na figura nossa conhecida abaixo. Quando entramos na etapa de exploração de dados à medida que vamos conhecendo melhor as informações nos deparamos com a necessidade de fazer uma higienização ou uma transformação dos dados para melhorar nossa leitura dos fatos que os dados nos apresentam. Por isso, falaremos das 3 atividades em conjunto.

Fonte: A autora

3 — Explorar os dados de Entrada

A etapa de “Exploração dos Dados” também conhecida como EDA (Exploratory Data Analysis), é uma das etapas onde os conhecimentos de estatística e programação (SQL, Python, R) são mais utilizados pelos profissionais da área de dados (engenheiro de dados, cientista de dados).

Como conversamos sobre a etapa anterior, uma vez que você já selecionou os dados que julga necessários e suficientes para realizar seu estudo (MVD — Minimal Viable Data), agora você vai aplicar métodos estatísticos para descobrir o valor, a veracidade e em que velocidade(5 V’s do BIG Data), você conseguirá processar estes dados.

Alguns métodos estatísticos de exploração de dados são aplicáveis para 99% dos problemas de negócios que estudamos através dos dados. Sendo assim, vou trazer aqui alguns desses métodos, mas ponderando que, para cada tipo de problema ou dado a ser analisado, temos um método mais assertivo para ele. Cada caso é um caso. A análise exploratória de dados utiliza uma grande variedade de técnicas gráficas e quantitativas, com o objetivo de maximizar a obtenção de informações ocultas na sua estrutura, ou seja, descobrir variáveis importantes em suas tendências, detectar comportamentos anômalos do fenômeno, testar se são válidas as hipóteses assumidas, escolher modelos e determinar o número ótimo de variáveis.

Vou elencar abaixo algumas dessas técnicas que estão disponíveis nas bibliotecas Python e R:

Métodos gráficos típicas usadas na análise exploratória de dados são:

· Diagrama de caixa;

· Histograma;

· Análise de controle multivariada;

· Diagrama de Pareto;

· Carta de sequência;

· Gráfico de dispersão;

· Diagrama de ramos e folhas;

· Coordenadas paralelas;

· Razão de possibilidades;

· Perseguição da projeção;

· Redução de dimensionalidade:

· Escalonamento multidimensional;

· Análise de componentes principais (ACP);

· Análise de componentes principais multilinear;

· Redução de dimensionalidade não linear (RDNL);

Técnicas quantitativas típicas são:

· Polimento da mediana;

· Tri-média;

· Ordenação.

Por exemplo as bibliotecas Python:

· Numpy: Permite manipulação de matrizes, geração de números aleatórios e possui diversos recursos de álgebra linear.

· Pandas: Fornece suporte para a modelagem por meio de análise exploratória de dados.

· Matplotlib: Permite a visualização de dados por meio de diversos gráficos.

Na linguagem R por exemplo:

· Lattice: Oferece uma série de funções análogas às funções gráficas do R, mas permite a construção de painéis (dashboards). Um painel é uma série de gráficos de mesmo tipo (dispersão, histograma etc.) colocados lado-a-lado para formar a história que se quer contar com esses dados (storytelling) acompanhando uma variável categórica ou quantitativa.

Exemplo de um gráfico de análise exploratória com o uso dos métodos estatísticos de análise fatorial multivariada e correlação de Pearson, para avaliar o impacto de combinação de diferentes ativos e o risco de mercado:

Fonte: Site Giants Capital

Como podem ver, nesta etapa é que começamos a identificar os famosos “Insights” da Ciência de Dados. Também deu para perceber que, caso não seja possível interpretar nenhum “Insight” ou muitos “insights” antagônicos , você terá que selecionar que manipular os dados, aí é que a etapa de exploração se mistura com a de limpeza, pois talvez você perceba que necessita retirar algumas variáveis que não são necessárias neste momento, para reduzir o tamanho do dataframe que esta explorando e com isso ganhar velocidade no processamento.

Também nesta exploração, você pode identificar que necessita transformar os dados, ou seja se você ao invés de trabalhar com transações diárias sobre um produto, converter estas para um conjunto de transações mensais, vai tornar a análise mais conclusiva e rápida de ser processada, você o fará nesta fase.

Por isso a etapa de exploração, limpeza e transformação ocorrem praticamente de forma simultânea.

Na próxima semana falaremos da aplicação de modelos estatísticos, esta é a etapa da seleção de um modelo ou uma ferramenta de “machine-learning” ou “deep-learning”, dependendo do objetivo final do nosso estudo.

Fontes:

Site Minerando Dados — ( https://minerandodados.com.br/analise-exploratoria-de-dados-passo-a-passo-com-python/

Site ECO Using R — http://ecologia.ib.usp.br/bie5782/doku.php?id=bie5782:03_apostila:05-exploratoria

Site Giants Capital — https://gscap.com.br

A autora:

· Embaixadora da Stanford University para o projeto Women In Data Science — WIDS;

· Voluntária Grupo Mulheres do Brasil;

· Especialização em Gestão de Dados (CDO Foundations) pelo MIT — Massachusetts Institute of Technology — EUA;

· Mestrado em Adm. Empresas pela FGV;

· Graduada em Adm. Empresas pela FAAP;

· Professora Universitária no SENAC para os cursos de Pós-Graduação em BIG Data e Gestão do Conhecimento e Inovação e para os cursos de graduação a Distância do SENAC;

· Autora dos livros:

· A Atuação do Profissional de Inteligência Competitiva, Publicit, 2015

· Pesquisa de Marketing, Série Universitária, SENAC, 2017

· Liderança/Participação em Comunidades Digitais: Women In Blockchain, ABINC Data & Analytics, FINTECHs & Newtechs, Marco Civil IA

· Empreendedora na Consultoria estratégica Analytics Data Services;

· Atuação como executiva nas áreas de planejamento estratégico de marketing e gestão e governança de dados em empresas como Unisys, Teradata, Santander, IBM dentre outras

--

--

Janete Ribeiro
Janete Ribeiro

Written by Janete Ribeiro

AI/ML Specialist, Chief Data Officer Certified by MIT, MsC Business Administration, SENAC University Professor

No responses yet