Otimizando projetos de Ciência de Dados

4 min readAug 5, 2021

É reconhecido nos projetos de Ciência de Dados que investimos 70% do nosso tempo de projeto nas atividades de coleta, exploração e tratamento de dados.

Restando assim para as etapas de investigação e identificação de “insights” através de modelos estatísticos e visualização dos dados, apenas 30% do tempo total.

Com isso, as empresas que possuem equipes limitadas de especialistas em engenharia e análise de dados, acabam não conseguindo atender as demandas de negócios em tempo hábil ou se veem no dilema de sobrecarregar a equipe técnica ao ponto de que as análises finais sejam tão exaustivas que não sobre mais tempo para criatividade.

A solução para esse empasse seria reduzir o tempo desgastante da coleta, exploração e tratamento para dedicar mais tempo a análise crítica e criativa dos dados.

Um tipo de arquitetura que vem sendo praticada cada vez mais é a denominada “Lake House”.

O que seria um “Lake House”, o misto entre “Data Lake” e “Data warehouse”.

Para entender melhor, vamos recapitular os conceitos em separado.

Data warehouse: Surgiu na década de 80, centralizam e consolidam grandes quantidades de dados de várias fontes. Seu processamento analítico é executado em dados que foram preparados para análise (estruturados): reunidos, contextualizados e transformados com o objetivo de gerar informações baseadas em análise. Quando as organizações precisam de análises avançadas de dados que se baseiem em dados históricos de várias fontes em toda a empresa, o data warehouse é a melhor escolha.
Data lakes: São repositórios para dados brutos em diversos formatos (não estruturados + estruturados), como aplicativos móveis, mídias sociais, dispositivos IoT, etc. Armazenam uma grande quantidade de dados diferentes, não filtrados, para serem usados posteriormente para uma finalidade específica. Quando as empresas precisam de armazenamento de baixo custo para dados não formatados e não estruturados de várias fontes que pretendem usar para algum propósito no futuro, um data lake seria a opção ideal.

Cada uma das soluções possui vantagens especificas, mas no atual ambiente de negócios temos a necessidade de gerar análises em tempo real, bem como monitorar transações em tempo real para tomada de decisão.

Este tipo de demanda não é possível de ser atendido de forma isolada por uma ou outra arquitetura, sendo assim a combinação das duas, nos permite automatizar processos e ganhar velocidade na etapa que mais agrega valor aos negócios, a análise e tomada de decisão.

Lakehouse: São habilitados por um novo design de sistema aberto, onde é possível implementar estruturas de dados e recursos de gerenciamento semelhantes aos de um data warehouse, porém com a vantagem de poder utilizar o tipo de armazenamento de baixo custo dos data lakes.

Algumas das vantagens desta nova arquitetura são:

Suporte a transações: No lakehouse, muitos pipelines de dados frequentemente estarão lendo e gravando dados simultaneamente. O suporte para transações ACID garante a consistência, visto que várias partes leem ou gravam dados simultaneamente, normalmente usando SQL.

Aplicação e governança do esquema: O Lakehouse suporta as arquiteturas de esquema DW, como Star Schema/ floco de neve. O sistema deve validar a integridade dos dados e ter mecanismos robustos de governança e auditoria.

Suporte de BI: Lakehouses permite o uso de ferramentas de BI diretamente nos dados de origem. Isso reduz a desatualização e melhora a recência, reduz a latência e diminui o custo de ter que operacionalizar cópias dos dados em um data lake e um warehouse.

O armazenamento desacoplado do processamento: Isso significa que o armazenamento e o processamento usam clusters separados, portanto, esses sistemas podem ser escalonados para mais usuários simultâneos e volumes de dados maiores. Alguns data warehouses modernos também possuem essa propriedade.

Opensource: Os formatos de armazenamento que eles usam são padrões abertos, como Parquet, e fornecem uma API para que uma variedade de ferramentas e mecanismos, incluindo aprendizado de máquina e bibliotecas Python / R, possam acessar os dados diretamente de maneira eficiente.

Suporte para diversos tipos de dados, desde dados não estruturados e estruturados: Pode ser usado para armazenar, refinar, analisar e acessar todos tipos de dados necessários para diferentes aplicações, incluindo imagens, vídeo, áudio, dados semiestruturados e texto.

Suporte para diversas cargas de trabalho: Isto significa poder aplicar as técnicas de ciência de dados, machine learning, SQL e análises. Utilizar várias ferramentas necessárias para dar suporte a todas essas cargas de trabalho, mas todas contam com o mesmo repositório de dados.

Streaming de ponta a ponta: Relatórios em tempo real são a norma em muitas empresas. O suporte para streaming elimina a necessidade de sistemas separados dedicados a atender aplicativos de dados em tempo real.

Praticamente todos os principais provedores de serviços na nuvem, estão preparados para suportar a arquitetura “Lakehouse”.

A plataforma Databricks Lakehouse, por exemplo, possui as funcionalidades Lake house e está integrada aos serviços AWS Redshift Spectrum, Google BigQuery e Microsoft’s Azure Synapse Analytics.

Desta forma, adotando novas opções de arquitetura de dados podemos conseguir otimizar tempo, recursos humanos e custos nos projetos de ciência de dados. Utilizando a própria ciência de dados para otimizar e facilitar processos.

Fontes:

Site Databricks — https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html

Site AWS — What is Data Lake-house Aprouch — https://aws.amazon.com/pt/big-data/datalakes-and-analytics/data-lake-house/?nc=sn&loc=11

Site Google — BigQuery — https://cloud.google.com/bigquery/

Site Microsoft Azure — Azure Synapse — https://azure.microsoft.com/en-us/blog/simply-unmatched-truly-limitless-announcing-azure-synapse-analytics/

Otimizando projetos de Ciência de Dados

Written by Janete Ribeiro