Data-Mesh e Governança de dados

Janete Ribeiro
4 min readMay 20, 2021
fonte: greenbird

Na área de Ciência de dados surgem novas tendências diariamente. É muito complexo manter-se atualizado, porém é necessário pois os desafios do mundo dos negócios também se atualizam rapidamente.

A mais nova tendência em termos de arquitetura de dados é a proposta inicialmente pela Zhamak Dehghani (diretora de tecnologia na ThoughtWorks) no artigo “How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh”. Neste artigo ela apresenta esta arquitetura como uma nova forma para estruturar e desenvolver arquiteturas de dados focando na facilitação e democratização em escala dos dados na empresa. Ao contrário de arquiteturas centralizadas e monolíticas como “data warehouse” (armazém de dados) ou um “data lake” (lago de dados), um “data mesh”(malha de dados) surge como um novo paradigma da arquitetura organizacional, descentralizando o “big-data” em “silos”, indo contra ao senso comum da “Governança de Dados” que sempre recomendou a centralização de grandes volumes de dados analíticos para disponibilizá-los ao consumo. Sempre supondo que mantê-los em um só lugar, ou gerenciá-los por meio de um time de dados centralizado, garante maior confiabilidade e valor às áreas de negócio.

Como funciona essa nova arquitetura? O “Data Mesh” segue quatro princípios:

1. Arquitetura de dados descentralizada orientada ao domínio — proporciona que o ecossistema que cria e consome dados, possa ser dimensionado conforme aumenta o número de fontes de dados, o número de casos de uso e a diversidade de modelos de acesso aos dados. Aumentando os nós autônomos no “mesh”;

2. Dados disponibilizados como produto — Viabilizando a melhor experiência do usuário, para que possam descobrir, entender e usar com segurança dados de alta qualidade. Os dados são distribuídos em muitos domínios;

3. Infraestrutura para disponibilizar os dados como “self-service— As equipes de domínio podem criar e consumir produtos de dados de forma autônoma, usando as abstrações da plataforma, ocultando a complexidade da construção, execução e manutenção de produtos de dados seguros e interoperáveis;

4. Governança de dados “federada” para permitir a interoperabilidade dos domínios — Através da elaboração de um ecossistema, seguindo padrões globais de interoperabilidade, estes padrões são incorporados computacionalmente à plataforma permitindo que os usuários de dados possam obter valor da agregação e correlação de produtos de dados independentes.

A arquitetura lógica para este tipo de solução ficaria assim:

Fonte: Data Mesh Principles and Logical Architecture

A implementação do “data mesh” requer a implementação de um programa de governança de dados que contemple a descentralização do domínio, interoperabilidade por meio de padronização global, a topologia dinâmica e, ainda a execução automatizada de decisões pela plataforma.

Como podem ver, não trata-se de um ambiente simples. Este tipo de governança é conhecida como “governança federada”. Onde cada dono de um produto de dados tem autonomia e poder de decisão local de domínio, enquanto cria e inclui a um conjunto de regras globais(regras aplicadas a todos os produtos de dados e suas interfaces), para garantir um ecossistema saudável e com interoperabilidade.

Este é maior o desafio da arquitetura, manter um equilíbrio entre centralização e descentralização. Identificar quais decisões precisam ser localizadas para cada domínio e quais decisões devem ser feitas globalmente para todos os domínios. Em última instancia, as decisões globais têm um propósito, criar interoperabilidade e um efeito de “malha”(mesh) composto por meio da descoberta e composição de produtos de dados.

O modelo de dados de domínio é uma preocupação que deve ser localizada no domínio que esteja mais intimamente familiarizado com ele. Por exemplo, em um banco, o modelo de dados de ‘seguros mais comprados no mês’ deve ser deixado para a equipe de ‘domínio de seguros’. No entanto, a decisão sobre como identificar um ‘cliente ativo do banco’ é uma preocupação global, pois pode ser encontrado em outros domínios. Ou seja, a governança de dados sobre o domínio de ‘cliente ativo do banco’ deve ser centralizada em um único lugar.

Um conjunto de dados de domínio só se torna um produto de dados depois que localmente, dentro do domínio, for validado pelo processo de qualidade de acordo com as métricas referentes ao produto de dados em específico e as regras de padronização global. Os proprietários de produtos de dados dentro do domínio estão em melhor condição de decidir como medir a qualidade dos dados do seu domínio, conhecendo os detalhes das regras de negócios do domínio que produz os dados. Apesar de tal tomada de decisão ser localizada e autônoma, é preciso garantir que a modelagem como um todo, estejam atendendo aos padrões globais de qualidade definidos pela instituição, definido pela equipe de “governança federada” e automatizado pela plataforma.

Busquei explicar aqui de forma bem sucinta como funciona esta nova tendência de arquitetura de dados, porém creio que ficou claro que não seria algo a ser adotado por pequenas e médias empresas. Trata-se de uma solução para corporações que já tenham larga cultura de dados, profissionais especializados em engenharia e análise de dados e que o modelo “Data lake” ou “Data warehouse” já não esteja mais atendendo ao volume de demandas por produtos de dados.

Em um próximo artigo falaremos sobre a arquitetura “Data Mesh” em ambiente de nuvem.

Fontes:

Data Mesh Principles and Logical Architecture — https://martinfowler.com/articles/data-mesh-principles.html

Site Data Mesh Learning — https://datameshlearning.com/

--

--

Janete Ribeiro

Analytics Data Services CEO, Chief Data Officer Certified by MIT, MsC Business Administration, SENAC University Professor