Share via


Um cenário de instituição financeira para a malha de dados

Este cenário destina-se a clientes que pretendem utilizar análises à escala da cloud para arquiteturas de escalabilidade e de malha de dados . Demonstra um cenário complexo com zonas de destino, integrações de dados e produtos de dados.

Perfil de cliente

Uma empresa fictícia, o Woodgrove Bank, é uma grande empresa de serviços financeiros com uma pegada mundial. Os dados do Woodgrove Bank estão alojados em sistemas de implementação no local e na cloud. Na arquitetura do Banco Woodgrove, existem vários sistemas de armazém de dados para marketing consolidado e relatórios integrados. Esta arquitetura inclui vários data lakes para análise ad hoc e deteção de dados. As aplicações do Banco Woodgrove estão interligadas através de padrões de integração de aplicações, que são maioritariamente baseadas em API ou baseadas em eventos.

A situação atual

É um desafio para o Banco Woodgrove distribuir dados para diferentes localizações devido à complexidade do armazenamento de dados. A integração de novos dados é demorada e é tentador duplicar dados. O Banco Woodgrove tem dificuldade em supervisionar o panorama dos dados ponto a ponto devido à conectividade ponto a ponto. O banco subestimou a procura de consumo intensivo de dados. Os novos casos de utilização são introduzidos rapidamente, um após o outro. A governação de dados, como a propriedade e a qualidade dos dados, e os custos são difíceis de controlar. Manter-se atualizado com os regulamentos é difícil porque o Woodgrove Bank não sabe exatamente onde residem os seus dados.

Solução de arquitetura: Malha de dados

Ao longo dos últimos anos, as organizações têm reconhecido que os dados estão no centro de tudo. Os dados abrem novas eficiências, impulsionam a inovação, desbloqueiam novos modelos de negócio e aumentam a satisfação dos clientes. É uma prioridade para as empresas utilizarem métodos orientados por dados, como dados em escala.

Chegar a uma fase em que o valor mais profundo dos dados é acessível a todos os membros da organização é desafiante. Sistemas legados e estreitamente interligados, plataformas monolíticas centralizadas e governação complexa podem ser barreiras significativas à geração de valor a partir de dados.

Acerca da malha de dados

O conceito de malha de dados, um termo cunhado por Zhamak Dehghani, abrange dados, tecnologia, processos e organização. Conceptualmente, é uma abordagem acessível para gerir dados em que vários domínios utilizam os seus próprios dados. A malha de dados desafia a ideia de centralização convencional de dados. Em vez de olhar para os dados como um repositório enorme, a malha de dados considera a decomposição de produtos de dados independentes. Esta mudança, de propriedade centralizada para federada, é apoiada por uma plataforma de dados moderna e self-service, que é normalmente concebida através de tecnologias nativas da cloud.

Quando divide o conceito de malha de dados em blocos modulares, seguem-se alguns pontos-chave a considerar:

  • Dados como um produto: cada domínio (organizacional) opera os seus dados ponto a ponto. A responsabilidade reside no proprietário dos dados no domínio. Os pipelines tornam-se uma preocupação de primeira classe dos próprios domínios.
  • Governação de dados computacionais federados: para garantir que cada proprietário de dados pode confiar nos outros e partilhar os respetivos produtos de dados, tem de ser estabelecido um organismo de governação de dados empresariais. O órgão de governação implementa a qualidade dos dados, a visibilidade central da propriedade dos dados, a gestão do acesso a dados e as políticas de privacidade de dados.
  • Propriedade de dados orientada para o domínio: idealmente, a empresa deve definir e modelar cada nó de domínio de dados na malha ao aplicar os princípios do design orientado para o domínio.
  • Plataforma de dados personalizada: uma malha de dados requer uma plataforma de dados personalizada que permite aos utilizadores remover a complexidade técnica e focar-se nos casos de utilização de dados individuais.

Análise à escala da cloud

O pensamento de dados como produto e um modelo de plataforma self-service não são novos na Microsoft. Há muitos anos que a Microsoft observa as melhores práticas de plataformas distribuídas, pipelines em domínios, propriedade federada e dados auto-explicativos.

O Woodgrove Bank pode fazer a transição para a malha de dados através da análise à escala da cloud. A análise à escala da cloud é um esquema open source e prescritivo para conceber e implementar rapidamente plataformas de dados modernas. É associada às melhores práticas e princípios de design do Azure e está alinhada com o Azure Well-Architected Framework. A análise à escala da cloud dá às empresas um ponto de vista de 80% prescrito e os restantes 20% são personalizáveis.

A análise à escala da cloud oferece às empresas um caminho de design estratégico para a malha de dados e pode ser utilizada para configurar rapidamente essa arquitetura. Oferece um esquema, incluindo os principais serviços de plataforma de dados para gestão de dados.

Ao mais alto nível, a análise à escala da cloud utiliza uma capacidade de gestão de dados, que é ativada através da zona de destino de gestão de dados. Esta zona é responsável pela governação de dados federados de uma organização da plataforma (self-service) e pelos domínios de dados que impulsionam o valor empresarial através de produtos de dados. A vantagem desta abordagem é a eliminação da complexidade técnica, ao mesmo tempo que cumpre as mesmas normas. Garante que não há proliferação de tecnologia. Também permite que as empresas comecem modulares, com uma pequena pegada, e depois cresçam ao longo do tempo.

A zona de destino da gestão de dados, como pode ver no diagrama seguinte, rodeia todos os domínios de dados. Cola todos os domínios e fornece a supervisão que o Woodgrove Bank procura.

Diagrama que mostra como a malha de dados distribui de forma inteligente os produtos de dados entre domínios de dados.

A análise à escala da cloud também defende a aplicação de uma governação consistente que utiliza uma arquitetura comum quando os produtos de dados são distribuídos. A arquitetura permite a comunicação direta entre domínios. Mantém-se no controlo ao dar ênfase à catalogação e classificação centrais para proteger os dados e permitir que os grupos detetem dados. Coloca um guarda-chuva sobre o seu património de dados.

Domínios de dados

Quando utiliza a análise à escala da cloud como um caminho estratégico, tem de pensar na decomposição da sua arquitetura e na granularidade resultante. A malha de dados decompõe os dados ao não seguir os limites das tecnologias. Em vez disso, aplica os princípios de design baseado em domínio (DDD), uma abordagem ao desenvolvimento de software que envolve sistemas complexos para organizações maiores. O DDD é popular devido ao seu efeito nas práticas modernas de desenvolvimento de software e aplicações, como microsserviços.

Um dos padrões do design orientado por domínio é conhecido como contexto vinculado. Os contextos vinculados são utilizados para definir os limites lógicos do espaço de solução de um domínio para gerir melhor a complexidade. É importante que as equipas compreendam que aspetos, incluindo os dados, podem mudar e quais são dependências partilhadas para coordenar com outras pessoas. A malha de dados abrange o contexto vinculado. Utiliza este padrão para descrever como as organizações podem coordenar-se em torno de domínios de dados e focar-se na entrega de dados como um produto. Cada domínio de dados é proprietário e opera vários produtos de dados com a sua própria pilha de tecnologia, que é independente dos outros.

Diagrama a mostrar a arquitetura da malha de dados.

Produtos de dados

Ao ampliar a arquitetura interna de um domínio de dados deste tipo, espera encontrar produtos de dados no mesmo.

Os produtos de dados satisfazem uma necessidade específica nas empresas que utilizam dados. Os produtos de dados gerem, organizam e fazem sentido para os dados entre domínios e, em seguida, apresentam as informações obtidas. Um produto de dados é o resultado de dados de uma ou muitas integrações de dados ou de outros produtos de dados. Os produtos de dados estão intimamente alinhados com domínios de dados e herdam a mesma linguagem construída e formalizada. É acordado pelos intervenientes e designers, e serve as necessidades do design. Cada domínio, que gera dados, é responsável por disponibilizar estes produtos de dados para os outros domínios.

Para ajudar a fornecer rapidamente produtos de dados, a análise à escala da cloud oferece modelos para padrões de distribuição e integração de dados. A arquitetura fornece lotes de dados, transmissão em fluxo e análise para responder às necessidades de diversos consumidores.

Uma grande vantagem da análise à escala da cloud é a forma como os domínios e os produtos de dados são organizados. Cada domínio de dados alinha-se com uma zona de destino de dados, que é uma construção lógica e uma unidade de dimensionamento na arquitetura de análise à escala da cloud. Permite a retenção de dados e a execução de cargas de trabalho de dados, o que gera informações e valor. Cada produto de dados está alinhado com um grupo de recursos dentro da zona de destino de dados e todas as zonas de destino e zonas de gestão de dados estão alinhadas com as subscrições. Esta abordagem facilita a implementação e a gestão.

Todos os modelos de análise à escala da cloud herdam o mesmo conjunto de políticas da zona de destino de gestão de dados. Os modelos fornecem automaticamente os metadados necessários para deteção de dados, governação, segurança, gestão de custos e excelência operacional. Pode integrar rapidamente novos domínios de dados sem a necessidade de integração, integração e teste complexos.

O diagrama seguinte ilustra o aspeto de um produto de dados:

Diagrama de um domínio de dados que contém um produto de dados.

Uma abordagem pragmática para a criação de produtos de dados é alinhar com a origem, onde os dados são originados ou com o caso de utilização consumista. Em ambos os casos, tem de fornecer uma vista abstrata do modelo de dados da aplicação (complexo) subjacente. Tem de tentar ocultar os detalhes técnicos e otimizar o consumo intensivo de dados. Uma vista Azure Synapse ou ficheiro Parquet, que agrupa logicamente dados, é um exemplo de como um produto de dados pode ser partilhado em vários domínios de dados.

Em seguida, tem de trabalhar na deteção de dados, proveniência, utilização e linhagem. Uma abordagem comprovada é utilizar um serviço de governação de dados, como o Azure Purview, para registar todos os dados. A integração de dados na análise à escala da cloud liga perfeitamente os pontos porque permite a criação destes produtos de dados, uma vez que efetua simultaneamente o registo de metadados.

Ao alinhar domínios de dados e coleções do Azure Purview, captura automaticamente todas as informações de origem, linhagem, qualidade de dados e informações de consumo dos domínios individuais. Com esta abordagem, pode ligar vários domínios de dados e produtos a uma solução de governação centralizada, que armazena todos os metadados de cada ambiente. O benefício é que integra centralmente todos os metadados e torna-o facilmente acessível a vários consumidores. Pode expandir esta arquitetura para registar novos produtos de dados.

O diagrama seguinte ilustra uma arquitetura de malha de dados entre domínios que utiliza a análise à escala da cloud.

Diagrama a mostrar a integração de dados.

A estrutura de rede permite que os produtos de dados sejam partilhados entre domínios com um custo mínimo e eliminando um único ponto de falha e limitações de largura de banda. Para ajudar a garantir a segurança, pode utilizar o modelo de segurança microsoft Confiança Zero. A análise à escala da cloud propõe a utilização do isolamento de rede através de pontos finais privados e comunicação de rede privada, um modelo de acesso a dados baseado em identidade que utiliza MIs, UMIs e grupos de segurança aninhados, seguindo o princípio do menor privilégio.

Pode utilizar identidades geridas para garantir que é seguido um modelo de acesso com menos privilégios. As aplicações e serviços neste modelo têm acesso limitado a produtos de dados. As políticas do Azure, com as próximas políticas de dados, são utilizadas para ativar a gestão personalizada e impor recursos em conformidade em todos os produtos de dados, em escala. Com esta estrutura, pode ter acesso a dados uniforme, mantendo-se totalmente controlado através da governação e auditoria de dados centralizadas.

Diagrama a ilustrar um contrato de dados.

Evoluir para o futuro

A análise à escala da cloud foi concebida tendo em conta a malha de dados. A análise à escala da cloud fornece uma abordagem comprovada através da qual as organizações podem partilhar dados em vários domínios de dados. Esta arquitetura permite que os domínios tenham autonomia para fazer escolhas e governa a arquitetura ao esgrimá-la com serviços de gestão de dados.

Ao implementar a malha de dados, agrupe e organize logicamente os seus domínios. Esta abordagem requer uma vista empresarial e é provavelmente uma mudança cultural para a sua organização. A mudança requer que federa a propriedade de dados entre domínios de dados e proprietários responsáveis por fornecer os seus dados como produtos. Também requer que as equipas estejam em conformidade com as capacidades centralizadas oferecidas pela zona de destino de gestão de dados. Esta nova abordagem pode exigir que as equipas individuais desduam os seus mandatos atuais, que são susceptíveis de gerar resistência. Talvez tenha de fazer certas escolhas políticas e encontrar um equilíbrio entre abordagens centralizadas e descentralizadas.

Pode dimensionar uma arquitetura de malha de dados ao adicionar mais zonas de destino à arquitetura de domínios individuais. Estas zonas de destino utilizam o peering de rede virtual para ligar à zona de destino de gestão de dados e a todas as outras zonas de destino. Este padrão permite-lhe partilhar produtos e recursos de dados entre zonas. Quando se divide em zonas separadas, pode distribuir cargas de trabalho por subscrições e recursos do Azure. Esta abordagem permite-lhe implementar a malha de dados organicamente.

Saber mais

Recursos da Microsoft:

Artigo do fundador da malha de dados Zhamak Dehghani: