Story-Telling e Visualização de Dados
Como vínhamos abordando nas últimas semanas, as etapas de um projeto de Ciência de Dados são basicamente 8 passos (figura abaixo), que apesar de ter uma ordem sucessiva, esta pode ser retrocedida a qualquer momento, pois o resultado de um experimento pode demandar a retomada da etapa anterior. Esse “vai-e-vem”, ficará mais claro na figura abaixo:
Muitos já devem ter ouvido o termo “Story-telling”, termo em inglês para expressão “Contar a estória”. Muitas vezes projetos audaciosos, com investimentos altíssimos são mal sucedidos porque o cientista de dados não soube “contar a estória” que os “dados lhe disseram”.
Como isso pode acontecer? Dados são “fatos”, “números”, impossível de alguém não extrair deles o que eles representam, ou não…
A minha frase acima representa o maior desafio desta área. Nesta frase eu demonstro duas linhas de pensamento filosófico. O “racionalismo”, onde a razão é a palavra-chave, pois o que os pensadores desta corrente fazem é analisar tudo através da razão, ou seja, as verdades sobre a realidade só podem ser analisadas por este prisma, rejeitando as sensações e sentimentos. Já no final da frase eu inseri o “empirismo”, que é um método de análise bastante utilizado, especialmente nas disciplinas exatas. Entre as correntes filosóficas, o empirismo considera que os sentidos são os verdadeiros responsáveis por revelar a verdade, e não a razão.
Como podem ver um simples “ou não…” no final de uma frase, pode mudar toda a estória.
A língua portuguesa não é para principiantes, isto também complica e muito a vida dos engenheiros aspirantes a cientistas de dados.
Estatísticas linguísticas estimam que para falar português fluente você deveria dominar cerca de 400 mil palavras, o dicionário completo da língua portuguesa falada nas Américas, África e Ásia possui 600 mil palavras, para falar inglês fluente você precisa dominar 8.000 e o dicionário Oxford, mais completo da língua inglesa falada mundialmente possui 171.476 palavras.
Você deve estar se perguntando por que eu estou falando de filosofia, linguística para falar de visualização de dados, não?
A razão é a necessidade de nos expressarmos corretamente para o publico alvo, e para conseguir isso, precisamos entender com quem estamos falando, o tema sobre o qual estamos falando, para então traduzir os métodos estatísticos em imagens e palavras que tenham significado para quem os vê.
O segredo de um bom “contador de estórias” está na forma como ele conta, não na estória propriamente dita. Quantas vezes alguém te conta uma piada e você não vê a menor graça, e outra pessoa conta a mesma piada e você não para de rir já na primeira frase.
A diferença está na interpretação, no tom de voz escolhido, na ênfase em etapas importantes e minimização dos fatos menos relevantes. O bom contador de estórias faz isso porque domina a linguagem e a cultura de quem o ouve.
Como aplicar isso diante de uma análise de risco de ataque cibernético a um banco de varejo? Vou apresentar parte deste processo onde aplicamos a metodologia denominada “Artificial Immune System (AIS)”, traduzindo, seria uma réplica computacional do comportamento do sistema imunológico humano. Este método se baseia em “linhas de raciocínio” denominadas CBR (do inglês Case-Based Reasoning). Os principais algoritmos utilizados são de:
· Seleção negativa — fornece auto-tolerância às células “contaminadas”, detecta agentes desconhecidos, sem reagir com as células do núcleo;
· Seleção clonal — descreve as características básicas de uma resposta imune a um estímulo do agente desconhecido. Pode garantir que apenas as células que reconhecem o agente possam proliferar.
Aplicando esse conhecimento no processo de detecção de fraudes, nosso algoritmo vai detectar as anomalias, ações fora dos padrões de processo do nosso cliente banco varejista, como se fosse um “agente desconhecido” ou “vírus” e este irá aprender com cada nova ação dos “agentes desconhecidos” permitindo assim prever próximos ataques.
A seguir um esquema de como funciona esta metodologia:
Com a explicação anterior e o esquema acima ficou claro a solução estatística dada para o problema de ataques cibernéticos?
O que estamos tentando mostrar aqui, que ao invés de investir muitas horas, praticamente defendendo uma tese de estatística e biologia para um publico de gestores de segurança da informação, utilizei métodos de exemplificação simples, para demonstrar o resultado. Uma estória contada de acordo com a visão filosófica do cliente.
A elaboração de “Dashboards”, ou “painéis de controle”, deve seguir a mesma linha de raciocínio utilizada para a apresentação dos métodos utilizados para solução do problema de negócios.
Relembrando qual seria o uso do resultado obtido pelo cliente, no caso hipotético acima do banco que buscava uma solução de IA para detecção de ataques cibernéticos, como ele iria querer monitorar isso? Através de um painel de controle que apresente a quantidade de tentativas de ataque que as transações dos clientes sofreram, quantas foram resolvidas, alertas para casos inesperados.
Um exemplo do Ministério da Saúde do Brasil, apresentando a evolução da pandemia de COVID-19:
No exemplo acima, utiliza-se a técnica de mapa de calor, para mostrar as regiões que possuem o coeficiente de maior incidência de notificações.
Outro exemplo:
Neste há uma combinação de apresentação dos números referentes aos indicadores principais de negócios (KPIs) da empresa e gráficos de acompanhamento, utilizando técnicas bem visuais como linhas, barras ou nuvem de palavras para as análises de sentimentos.
Há inúmeras técnicas para contar uma boa estória baseada em dados, aqui trouxe apenas alguns exemplos para que possam orientar os novatos na área na sua busca por conhecimento.
Tem algum outro tema sobre ciência de dados que vocês queiram receber dicas? Enviem nos comentários e conversaremos na próxima semana.
Fontes:
Site Linguateca — https://www.linguateca.pt/
Site Novaescola: https://novaescola.org.br/
Site Lexico: https://www.lexico.com/
Site science Direct — Artificial Immune Systems https://www.sciencedirect.com/science/article/abs/pii/S1568494614003160#:~:text=Artificial%20Immune%20System%20is%20a,about%20potential%20non%2Dself%20cells.
Site Ministério da Saúde Brasil — https://covid.saude.gov.br/
Udemy Cursos Online — https://www.udemy.com/