Share via


O que é uma malha de dados?

A malha de dados é um padrão de arquitetura para implementar plataformas de dados empresariais em organizações grandes e complexas. A malha de dados ajuda a dimensionar a adoção de análises para além de uma única plataforma e uma única equipe de implementação.

Fundo

A necessidade de análise não é nova. As organizações sempre precisaram analisar o desempenho dos negócios, e o fizeram usando computadores desde a sua introdução. Por volta da década de 1980, as organizações começaram a construir soluções de armazenamento de dados usando bancos de dados especificamente para apoio à decisão. Estas soluções de armazenamento de dados serviram bem as organizações durante muito tempo.

No entanto, à medida que os negócios mudam e geram dados mais diversos, as soluções de data warehousing que usam bancos de dados relacionais nem sempre podem ser a melhor solução. Nos anos 2000, big data tornou-se um termo comum. As empresas adotaram novas soluções que permitem a análise de grandes volumes de dados diversos que poderiam ser gerados com grande velocidade. Isso inclui tecnologia, como data lakes, e soluções de expansão que analisam grandes quantidades de dados.

Nos últimos anos, muitas organizações usam com sucesso padrões analíticos e arquitetônicos modernos que combinam tecnologias de armazenamento de dados e tecnologias de big data mais recentes.

Diagram of architecture.

No entanto, algumas organizações encontram problemas ao implantar soluções analíticas que usam padrões analíticos. Essas soluções geralmente ainda são implementadas como soluções monolíticas, onde uma única equipe é o provedor da plataforma e a equipe está fazendo a integração de dados. Organizações menores e organizações que têm um alto grau de centralização de uma perspetiva de configuração de equipe podem usar uma única equipe. No entanto, uma organização maior usando apenas uma única equipe geralmente cria um gargalo. Esse gargalo causa uma enorme lista de pendências, o que resulta em partes de uma organização esperando por serviços de integração de dados e soluções analíticas.

Esse padrão se torna mais comum à medida que as organizações adotam soluções modernas de ciência de dados. Muitas soluções modernas de ciência de dados exigem mais dados do que as soluções tradicionais de business intelligence no passado.

A recente mudança para o uso de microsserviços como um padrão de desenvolvimento de aplicativos é outro driver de longas listas de pendências em torno da integração de dados, porque aumenta o número de fontes de dados.

Uma única equipe lidando com toda a ingestão de dados em uma única plataforma em uma grande organização também pode ser problemática. Uma equipe raramente tem especialistas para cada fonte de dados. A maioria das organizações são descentralizadas e distribuídas a partir de uma perspetiva de negócios. Diferentes unidades de negócios e departamentos lidam com diferentes partes da operação de negócios, portanto, os especialistas em dados normalmente estão espalhados por vários setores.

Um novo padrão arquitetônico chamado malha de dados foi introduzido recentemente para resolver esses problemas. O objetivo da malha de dados é permitir que equipes distribuídas trabalhem e compartilhem informações de forma descentralizada e ágil.

A malha de dados é um padrão técnico que também requer mudanças organizacionais. Os benefícios de uma abordagem de malha de dados são alcançados pela implementação de equipes multidisciplinares que publicam e consomem produtos de dados.

Os conceitos a seguir são fundamentais para entender a arquitetura de malha de dados:

  • Domínios de dados
  • Produtos de dados
  • Plataformas de autoatendimento
  • Governação federada

Domínios de dados

Os domínios de dados são a base da malha de dados. O conceito de domínios de dados vem do Domain Driven Development (DDD), um paradigma frequentemente usado no desenvolvimento de software para modelar soluções de software complexas. Na malha de dados, um domínio de dados é uma maneira de definir limites em torno dos dados da sua empresa. Os domínios podem variar dependendo da sua organização e, em alguns casos, você pode definir domínios em torno da sua organização. Em outros casos, você pode optar por modelar domínios de dados com base em seus processos de negócios ou sistemas de origem.

Há três aspetos nos domínios de dados:

  • Os limites escolhidos tornam-se propriedade a longo prazo. Eles existem por um longo período de tempo e identificaram proprietários.

  • Seus domínios devem corresponder à realidade, não apenas conceitos teóricos.

  • Seus domínios precisam ter integridade atômica. Se as áreas não tiverem relação entre si, não as combine em um domínio.

Para obter mais informações sobre domínios de dados e como defini-los, consulte Domínios de dados.

Produtos de dados

Os produtos de dados são outro componente importante da malha de dados. Os produtos de dados têm como objetivo levar o pensamento do produto para o mundo dos dados. Para que seu produto de dados seja bem-sucedido, ele precisa fornecer um valor comercial de longo prazo para os usuários pretendidos. Na malha de dados, um produto de dados envolve dados, ativos de código, metadados e políticas relacionadas. Os produtos de dados podem ser fornecidos como uma API, relatório, tabela ou conjunto de dados em um data lake.

Um produto de dados bem-sucedido deve ser:

  • Utilizável: Seu produto deve ter usuários fora do domínio de dados imediato.
  • Valioso: Seu produto deve manter o valor ao longo do tempo. Se não tiver valor a longo prazo, não pode ter sucesso.
  • Viável: Seu produto deve ser viável. Se você não pode realmente construí-lo, o produto não pode ser um sucesso. Seu produto deve ser viável tanto do ponto de vista da disponibilidade de dados quanto do ponto de vista técnico.

Os ativos de código de um produto de dados incluem o código que o gera e o código que o entrega. Os ativos de código também incluem pipelines usados para criar o produto e o relatório final do produto.

Para obter mais informações sobre produtos de dados, consulte Produtos de dados analíticos em escala de nuvem no Azure.

Para obter orientações específicas sobre como usar malha de dados, consulte O que é um produto de dados?.

Plataformas de autoatendimento

Um núcleo de malha de dados é ter uma plataforma que permite que os domínios de dados criem seus produtos de dados por conta própria. Os domínios de dados precisam definir produtos de dados usando as ferramentas e processos que são relevantes para os usuários sem ter uma forte dependência de uma plataforma central ou de uma equipe de plataforma central. Em uma malha de dados, você tem equipes autônomas desenvolvendo e gerenciando produtos autônomos.

Ao usar a descentralização e o alinhamento com usuários empresariais que entendem seus dados, lembre-se dos generalistas que também trabalham em sua plataforma. Como você tem generalistas, não pode ter ferramentas especializadas que exijam conhecimento especializado para operar como a base central de sua plataforma baseada em malha.

Você pode implementar com sucesso sua plataforma de autoatendimento adotando as práticas descritas em Considerações de design para plataformas de dados de autoatendimento.

Governação federada

Ao adotar uma plataforma de dados distribuídos de autoatendimento, você deve colocar uma ênfase maior na governança. A falta de governança leva a silos e duplicação de dados em seus domínios de dados. Federar sua governança, pois as pessoas que entendem a necessidade de governança existem dentro de suas equipes alinhadas ao domínio e entre os proprietários de dados.

Para criar sua governança federada, implemente políticas automatizadas em torno das necessidades da plataforma e dos dados. Use um alto grau de automação para testes e monitoramento. Adote uma estratégia de implementação code-first para lidar com padrões, políticas, produtos de dados e implantação de plataforma como código.

Para obter mais informações sobre a implementação de aspetos de governança federada, consulte Visão geral da governança de dados.

Resumo

A malha de dados pode ser uma maneira eficaz de implementar plataformas de dados corporativos, mas não é a melhor solução para todas as organizações. A malha de dados requer equipes autônomas que possam trabalhar de forma independente. A malha de dados funciona melhor em organizações grandes e complexas que têm unidades de negócios independentes e precisam escalar sua adoção de análise para além de uma única plataforma e equipe de implementação.

Ao usar malha de dados, tenha cuidado especial ao implementar sua governança para não criar silos. Mantenha sempre o pensamento do produto para os dados no centro da sua implementação para garantir o sucesso.

Passos Seguintes

Domínios de dados