Aplicando Modelos Estatísticos

Janete Ribeiro
4 min readMay 28, 2020

--

Na semana anterior, falamos sobre coleta, ingestão e tratamento de dados. O foco era familiarizar os aspirantes e novatos na área de ciência de dados de que os dados não nascem prontos para consumo.

A fama de que “dados” são o novo petróleo, não se reduz apenas ao fato de serem valiosos para economia mundial, mas também porque assim como o petróleo a exploração dele é trabalhosa, o petróleo bruto não movimenta a economia, o que gera valor é o petróleo refinado e transformado em vários subprodutos.

Assim são os dados. Dados brutos espalhados pela internet, capturados de maneira equivocada por aplicativos sem validação de campos, dados coletados de equipamentos inteligentes em larga escala sem nenhum critério. Apenas ocupam espaço e geram custos de processamento e armazenamento.

Uma vez que executemos a coleta corretamente, fizemos a ingestão no ambiente de nuvem, fizemos as análises descritivas e exploratórias dos dados, tratamos falhas, reduzimos dimensionalidades e padronizamos os dados, estes tornam-se consumíveis.

Os “dados consumíveis” são aqueles que podem ser submetidos a qualquer modelo estatístico, pois os dados foram validados, as variáveis têm correlação entre si e a variedade e o volume de informação podem garantir uma reprodução confiável da realidade a ser analisada.

Quando falamos de Validação, Variedade e Volume, estamos nos referenciando aos “Vs” do Big-Data (Veracidade, Variedade, Volume, Velocidade e Valor). A velocidade está na infraestrutura que você tem para coletar, tratar, analisar e gerar visualizações destes dados. O “valor” é o quão estratégico o resultado foi para a instituição que proprietária dos dados.

Fonte: o autor

Para iniciar a seleção de possíveis modelos/algoritmos a serem aplicados na busca pela resposta à pergunta de negócios, temos que exercitar nosso raciocínio lógico, nossa capacidade de visão sistêmica, ou seja, olhar o macroambiente e enxergar o micro processo que influi sobre todo o ecossistema.

Primeiro passo, pode parecer óbvio, mas em meio a toda fase de ingestão e tratamento de dados que falamos no artigo anterior, muitos cientistas de dados se esquecem do objetivo final. Ou seja, depois de tanto organizar os dados coletados já não se lembra mais qual era a pergunta de negócios que o cliente quer que seja respondida.

Então resgate a pergunta de negócios e:

1. Entenda se nela há requisitos quantitativos ou qualitativos. Observe os dados que você possui e veja se as variáveis são “Qualitativas” (categóricas, exemplo: nominal = marca preferida, ordinal = nível de escolaridade) ou “Quantitativas” (numéricas, exemplo: discretos = quantidade de alunos, contínuos = variação de peso);

2. A resposta a pergunta deverá ser baseada em dados categóricos e nomeados? Então métodos supervisionados de classificação ou regressão serão seus melhores instrumentos.

3. Mas se a pergunta deve ser respondida com valores numéricos, os métodos não supervisionados de “clusterização” ou “segmentação” são os mais recomendados.

Na figura abaixo procuramos reproduzir este raciocínio agregando os principais métodos estatísticos aplicados pelas soluções de mercado de “Machine Learning” ou “Aprendizado de Máquina”:

Fonte: Adaptação da metodológica do autor referente ao artigo :“Machine Learning Summarized in one picture”

Algumas ferramentas já pré-selecionam modelos e apresentam seus melhores resultados em assertividade, porém cabe ao cientista de dados compreender porque um método apresenta melhores resultados quando comparado a outro.

A amostra de teste, deve ser selecionada em quantidade e variedade representativa da realidade. Normalmente para estes testes selecionamos um décimo da base real com representação igualmente proporcional das variedades da base total. Para validação do experimento devemos ter outra amostra que também represente um “decil” da base, para que possamos garantir a validade do teste inicial.

Uma vez que tenhamos selecionado e validado o método, então o aplicaremos a base integral.

O resultado obtido sobre a base integral deverá ser validado contra fatos reais, por exemplo:

Se estamos desenvolvendo uma solução para aprovação de crédito ao consumidor, devemos trabalhar com uma base histórica, se possível de 18 meses atrás no mínimo.

Ao final, quando aplicarmos o modelo sobre essa base, deveremos confrontar os resultados de inadimplência dos últimos 18 meses versus as negativas de crédito dadas pelo modelo estatístico. Se ele tiver negado crédito para a maioria daqueles que vieram a ser inadimplentes na base real, o indicador de assertividade esta correto. Caso contrário, devemos voltar ao princípio do processo.

A apresentação dos resultados obtidos através da análise de dados é extremamente importante para se conquistar credibilidade e dar continuidade a cultura de tomada de decisões baseadas em dados (Data Driven Decisions). No próximo artigo falaremos sobre esta importante etapa do trabalho do cientista de dados.

Fonte: Data Science Central Blog — Machine Learning Summarized in one picture https://www.datasciencecentral.com/profiles/blogs/machine-learning-summarized-in-one-picture?utm_content=buffer146be&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer

A autora:

· Embaixadora da Stanford University para o projeto Women In Data Science — WIDS;

· Voluntária Grupo Mulheres do Brasil;

· Especialização em Gestão de Dados (CDO Foundations) pelo MIT — Massachusetts Institute of Technology — EUA;

· Mestrado em Adm. Empresas pela FGV;

· Graduada em Adm. Empresas pela FAAP;

· Professora Universitária no SENAC para os cursos de Pós-Graduação em BIG Data e Gestão do Conhecimento e Inovação e para os cursos de graduação a Distancia do SENAC;

· Autora dos livros:

· A Atuação do Profissional de Inteligência Competitiva, Publicit, 2015

· Pesquisa de Marketing, Série Universitária, SENAC, 2017

· Liderança/Participação em Comunidades Digitais: Women In Blockchain, ABINC Data & Analytics, FINTECHs & Newtechs, Marco Civil IA

· Empreendedora na Consultoria estratégica Analytics Data Services;

· Atuação como executiva nas áreas de planejamento estratégico de marketing e gestão e governança de dados em empresas como Unisys, Teradata, Santander, IBM dentre outras

--

--

Janete Ribeiro
Janete Ribeiro

Written by Janete Ribeiro

AI/ML Specialist, Chief Data Officer Certified by MIT, MsC Business Administration, SENAC University Professor

No responses yet