Editar

Gerenciamento de dados mestre com o Profisee e o Azure Data Factory

Azure Data Factory
Azure Databricks
Azure Data Lake

Esse padrão de arquitetura demonstra como você pode incorporar o MDM ao ecossistema de serviços de dados do Azure para melhorar a qualidade dos dados usados para análise e tomada de decisões operacionais. O MDM resolve vários desafios comuns, incluindo:

  • Identificação e gestão de dados duplicados (match e merge).
  • Sinalizar e resolver problemas de qualidade de dados.
  • Padronização e enriquecimento de dados.
  • Permitindo que os administradores de dados gerenciem e melhorem os dados de forma proativa.

Este padrão apresenta uma abordagem moderna ao MDM. Todas as tecnologias são implantáveis nativamente no Azure, incluindo o Profisee, que você pode implantar por meio de contêineres e gerenciar com o Serviço Kubernetes do Azure.

Arquitetura

Diagram showing the master data management Profisee data flow.

Baixe um arquivo do Visio dos diagramas usados nesta arquitetura.

Fluxo de dados

O seguinte fluxo de dados corresponde ao diagrama anterior:

  1. Carga de dados de origem: os dados de origem de aplicativos de negócios copiam para o Azure Data Lake e os armazenam para transformação e uso adicionais em análises downstream. Os dados de origem normalmente se enquadram em uma das três categorias:

    • Dados mestre estruturados – As informações que descrevem clientes, produtos, locais e assim por diante. Os dados mestre são de baixo volume, alta complexidade e mudam lentamente ao longo do tempo. Muitas vezes, são os dados com os quais as organizações mais lutam em termos de qualidade de dados.
    • Dados transacionais estruturados – Eventos de negócios que ocorrem em um momento específico, como um pedido, fatura ou interação. As transações incluem as métricas dessa transação (como preço de venda) e referências a dados mestre (como o produto e o cliente envolvido em uma compra). Os dados transacionais geralmente são de alto volume, baixa complexidade e não mudam com o tempo.
    • Dados não estruturados – Dados que podem incluir documentos, imagens, vídeos, conteúdo de redes sociais e áudio. As plataformas de análise modernas podem usar cada vez mais dados não estruturados para aprender novos insights. Os dados não estruturados são frequentemente associados a dados mestres, como um cliente associado a uma conta de mídia social ou um produto associado a uma imagem.
  2. Carga de dados mestre de origem: os dados mestre dos aplicativos de negócios de origem são carregados no aplicativo MDM "como estão", com informações completas de linhagem e transformações mínimas.

  3. Processamento MDM automatizado: A solução MDM usa processos automatizados para padronizar, verificar e enriquecer dados, como dados de endereço. A solução também identifica problemas de qualidade de dados, agrupa registros duplicados (como clientes duplicados) e gera registros mestres, também chamados de "registros dourados".

  4. Gestão de dados: Conforme necessário, os administradores de dados podem:

    • Revisar e gerenciar grupos de registros correspondentes
    • Criar e gerenciar relações de dados
    • Preencha as informações em falta
    • Resolva problemas de qualidade de dados.

    Os administradores de dados podem gerenciar vários roll-ups hierárquicos alternativos conforme necessário, como hierarquias de produtos.

  5. Carga de dados mestre gerenciada: dados mestre de alta qualidade fluem para soluções de análise downstream. Essa ação simplifica o processo, uma vez que as integrações de dados não exigem mais transformações de qualidade de dados.

  6. Carga de dados transacionais e não estruturados: os dados transacionais e não estruturados são carregados na solução de análise downstream, onde são combinados com dados mestre de alta qualidade.

  7. Visualização e análise: Os dados são modelados e disponibilizados aos utilizadores empresariais para análise. Os dados mestre de alta qualidade eliminam problemas comuns de qualidade de dados, que resultam em insights aprimorados.

Componentes

  • O Azure Data Factory é um serviço de integração de dados híbrido que permite criar, agendar e orquestrar seus fluxos de trabalho ETL e ELT.

  • O Azure Data Lake fornece armazenamento ilimitado para dados analíticos.

  • O Profisee é uma plataforma MDM escalável projetada para se integrar facilmente ao ecossistema da Microsoft.

  • O Azure Synapse Analytics é o armazém de dados na nuvem rápido, flexível e fiável que lhe permite dimensionar, calcular e armazenar dados de forma elástica e independente, com uma arquitetura de processamento paralelo em massa.

  • O Power BI é um conjunto de ferramentas de análise empresarial que fornece informações em toda a sua organização. Conecte-se a centenas de fontes de dados, simplifique a preparação de dados e impulsione análises improvisadas. Produza magníficos relatórios e publique-os para a sua organização os consumir na Web e em dispositivos móveis.

Alternativas

Na ausência de um aplicativo MDM criado especificamente para você, você pode encontrar alguns dos recursos técnicos necessários para criar uma solução MDM dentro do ecossistema do Azure.

  • Qualidade de dados - Ao carregar para uma plataforma de análise, você pode criar qualidade de dados nos processos de integração. Por exemplo, aplique transformações de qualidade de dados em um pipeline do Azure Data Factory com scripts codificados.
  • Padronização e enriquecimento de dados - o Azure Maps ajuda a fornecer verificação e padronização de dados para dados de endereço, que você pode usar no Azure Functions e no Azure Data Factory. A padronização de outros dados pode exigir o desenvolvimento de scripts codificados.
  • Gerenciamento de dados duplicados - Você pode usar o Azure Data Factory para desduplicar linhas onde identificadores suficientes estão disponíveis para uma correspondência exata. Nesse caso, a lógica de mesclagem combinada com a sobrevivência apropriada provavelmente exigiria scripts codificados personalizados.
  • Gestão de dados - Utilize as Power Apps para desenvolver rapidamente soluções simples de gestão de dados para gerir dados no Azure, juntamente com interfaces de utilizador adequadas para revisão, fluxo de trabalho, alertas e validações.

Detalhes do cenário

Muitos programas de transformação digital usam o Azure como o núcleo. Mas isso depende da qualidade e consistência dos dados de várias fontes, como aplicativos de negócios, bancos de dados, feeds de dados e assim por diante. Ele também oferece valor por meio de business intelligence, análises, aprendizado de máquina e muito mais. A solução Master Data Management (MDM) da Profisee completa o conjunto de dados do Azure com um método prático para "alinhar e combinar" dados de várias fontes. Ele faz isso impondo padrões de dados consistentes nos dados de origem, como correspondência, mesclagem, padronização, verificação e correção. A integração nativa com o Azure Data Factory e outros Serviços de Dados do Azure simplifica ainda mais esse processo para acelerar a entrega dos benefícios comerciais do Azure.

Um aspeto central de como as soluções MDM funcionam é que elas combinam dados de várias fontes para criar um "mestre de registro dourado" que contém os dados mais conhecidos e confiáveis para cada registro. Essa estrutura constrói domínio a domínio de acordo com os requisitos, mas quase sempre requer vários domínios. Os domínios comuns são cliente, produto e localização. Mas os domínios podem representar qualquer coisa, desde dados de referência até contratos e nomes de medicamentos. Em geral, quanto melhor cobertura de domínio você puder criar em relação aos amplos requisitos de dados do Azure, melhor.

Pipeline de integração MDM

Image that shows the master data management Profisee integration pipeline.

Transfira um ficheiro do Visio desta arquitetura.

A imagem anterior mostra os detalhes para a integração com a solução Profisee MDM. Observe que o Azure Data Factory e o Profisee incluem suporte nativo à integração REST, fornecendo uma integração leve e moderna.

  1. Carregue dados de origem para o MDM: o Azure Data Factory extrai dados do data lake, transforma-os para corresponder ao modelo de dados mestre e transmite-os para o repositório MDM através de um coletor REST.

  2. Processamento MDM: A plataforma MDM processa dados mestre de origem por meio de uma sequência de atividades para verificar, padronizar e enriquecer os dados e executar processos de qualidade de dados. Finalmente, o MDM realiza correspondência e sobrevivência para identificar e agrupar registros duplicados e criar registros mestres. Opcionalmente, os administradores de dados podem executar tarefas que resultam em um conjunto de dados mestre para uso em análises downstream.

  3. Carregar dados mestre para análise: o Azure Data Factory usa sua fonte REST para transmitir dados mestre do Profisee para o Azure Synapse Analytics.

Modelos do Azure Data Factory para o Profisee

Em colaboração com a Microsoft, a Profisee desenvolveu um conjunto de modelos do Azure Data Factory que tornam mais rápida e fácil a integração do Profisee no ecossistema dos Serviços de Dados do Azure. Esses modelos usam a fonte de dados REST do Azure Data Factories e o coletor de dados para ler e gravar dados da API do Gateway REST do Profisee. Eles fornecem modelos para leitura e escrita para o Profisee.

Screenshot that shows MDM Profisee and the Azure Data Factory template.

Exemplo de modelo Data Factory: JSON para Profisee sobre REST

As capturas de tela a seguir mostram um modelo do Azure Data Factory que copia dados de um arquivo JSON em um Azure Data Lake para o Profisee via REST.

O modelo copia os dados JSON de origem:

Screenshot that shows the source JSON data.

Em seguida, os dados são sincronizados com o Profisee via REST:

Screenshot that shows REST sync to Profisee.

Para obter mais informações, consulte Modelos do Azure Data Factory para Profisee.

Processamento de MDM

Em um caso de uso analítico de MDM, os dados geralmente são processados automaticamente por meio da solução MDM para carregar dados para análise. As seções a seguir mostram um processo típico para dados de clientes nesse contexto.

1. Carga dos dados de origem

Os dados de origem são carregados na solução MDM a partir de sistemas de origem, incluindo informações de linhagem. Neste caso, temos dois registros de origem, um do CRM e outro do aplicativo ERP. Após inspeção visual, os dois registos parecem representar a mesma pessoa.

Nome de Origem Endereço de origem Estado da Origem Telefone de origem ID de origem Endereço padrão Estado padrão Nome padrão Telefone padrão Semelhança
Alana Bosh Rua Principal 123 GA 7708434125 CRM-100
Bosch, Alana Rua Principal, 123 Geórgia 404-854-7736 CRM-121
Alana Bosch (404) 854-7736 ERP-988

2. Verificação e normalização dos dados

Regras e serviços de verificação e padronização ajudam a padronizar e verificar informações de endereço, nome e número de telefone.

Nome de Origem Endereço de origem Estado da Origem Telefone de origem ID de origem Endereço padrão Estado padrão Nome padrão Telefone padrão Semelhança
Alana Bosh Rua Principal 123 GA 7708434125 CRM-100 Rua Principal, 123 GA Alana Bosh 770 843 4125
Bosch, Alana Rua Principal, 123 Geórgia 404-854-7736 CRM-121 Rua Principal, 123 GA Alana Bosch 404 854 7736
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736

3. Correspondência

Com os dados padronizados, ocorre a correspondência, identificando a semelhança entre os registros no grupo. Nesse cenário, dois registros correspondem exatamente um ao outro em Nome e Telefone, e o outro difuso corresponde em Nome e Endereço.

Nome de Origem Endereço de origem Estado da Origem Telefone de origem ID de origem Endereço padrão Estado padrão Nome padrão Telefone padrão Semelhança
Alana Bosh Rua Principal 123 GA 7708434125 CRM-100 Rua Principal, 123 GA Alana Bosh 770 843 4125 0,9
Bosch, Alana Rua Principal, 123 Geórgia 404-854-7736 CRM-121 Rua Principal, 123 GA Alana Bosch 404 854 7736 1.0
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736 1.0

4. Sobrevivência

Com um grupo formado, a sobrevivência cria e preenche um registro mestre (também chamado de "disco de ouro") para representar o grupo.

Nome de Origem Endereço de origem Estado da Origem Telefone de origem ID de origem Endereço padrão Estado padrão Nome padrão Telefone padrão Semelhança
Alana Bosh Rua Principal 123 GA 7708434125 CRM-100 Rua Principal, 123 GA Alana Bosh 770 843 4125 0,9
Bosch, Alana Rua Principal, 123 Geórgia 404-854-7736 CRM-121 Rua Principal, 123 GA Alana Bosch 404 854 7736 1.0
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736 1.0
Registro mestre: Rua Principal, 123 GA Alana Bosch 404 854 7736

Esse registro mestre, juntamente com dados de origem e informações de linhagem aprimorados, é carregado na solução de análise downstream, onde ele se vincula a dados transacionais.

Este exemplo mostra o processamento MDM básico e automatizado. Você também pode usar regras de qualidade de dados para calcular e atualizar valores automaticamente e sinalizar valores ausentes ou inválidos para resolução por administradores de dados. Os administradores de dados ajudam a gerenciar os dados, incluindo o gerenciamento de pacotes hierárquicos de dados.

O impacto do MDM na complexidade da integração

Como mostrado anteriormente, o MDM aborda vários desafios comuns encontrados ao integrar dados em uma solução de análise. Isso inclui corrigir problemas de qualidade de dados, padronizar e enriquecer dados e racionalizar dados duplicados. A incorporação do MDM em sua arquitetura de análise altera fundamentalmente o fluxo de dados, eliminando a lógica codificada no processo de integração e transferindo-a para a solução MDM, o que simplifica significativamente as integrações. A tabela a seguir descreve algumas diferenças comuns no processo de integração com e sem MDM.

Funcionalidade Sem MDM Com MDM
Qualidade de dados Os processos de integração incluem regras de qualidade e transformações para ajudar a corrigir e corrigir os dados à medida que se movem. Requer recursos técnicos tanto para a implementação inicial como para a manutenção contínua destas regras, tornando os processos de integração de dados complicados e dispendiosos de desenvolver e manter. A solução MDM configura e impõe a lógica e as regras de qualidade de dados. Os processos de integração não executam transformações de qualidade de dados, em vez disso, movem os dados "no estado em que se encontram" para a solução MDM. Os processos de integração de dados são simples e acessíveis de desenvolver e manter.
Padronização e enriquecimento de dados Os processos de integração incluem lógica para padronizar e alinhar dados mestre e de referência. Desenvolver integrações com serviços de terceiros para realizar a padronização de endereço, nome, e-mail e dados telefônicos. Usando regras internas e integrações prontas para uso com serviços de dados de terceiros, você pode padronizar dados dentro da solução MDM, o que simplifica a integração.
Gerenciamento de dados duplicados O processo de integração identifica e agrupa registros duplicados que existem dentro e entre aplicativos com base em identificadores exclusivos existentes. Esse processo compartilha identificadores entre sistemas (por exemplo, SSN ou e-mail) e só os corresponde e agrupa quando idênticos. Abordagens mais sofisticadas exigem investimentos significativos em engenharia de integração. Os recursos integrados de correspondência de aprendizado de máquina identificam registros duplicados dentro e entre sistemas, gerando um registro dourado para representar o grupo. Esse processo permite que os registros sejam "fuzzy matched", agrupando registros que são semelhantes, com resultados explicáveis. Ele gerencia grupos em cenários em que o mecanismo de ML não consegue formar um grupo com alta confiança.
Gestão de dados As atividades de gestão de dados apenas atualizam os dados nos aplicativos de origem, como ERP ou CRM. Normalmente, eles descobrem problemas, como dados ausentes, incompletos ou incorretos, ao executar análises. Eles corrigem os problemas no aplicativo de origem e, em seguida, atualizam-nos na solução de análise durante a próxima atualização. Qualquer nova informação para gerenciar é adicionada aos aplicativos de origem, o que leva tempo e é caro. As soluções MDM têm recursos integrados de administração de dados que permitem que os usuários acessem e gerenciem dados. Idealmente, o sistema sinaliza problemas e solicita que os administradores de dados os corrijam. Configure rapidamente novas informações ou hierarquias na solução para que os administradores de dados as gerenciem.

Casos de uso de MDM

Embora existam vários casos de uso para MDM, alguns casos de uso cobrem a maioria das implementações de MDM do mundo real. Embora esses casos de uso se concentrem em um único domínio, é improvável que sejam criados apenas a partir desse domínio. Em outras palavras, mesmo esses casos de uso focados provavelmente incluem vários domínios de dados mestres.

Customer 360

A consolidação de dados de clientes para análise é o caso de uso mais comum do MDM. As organizações capturam dados de clientes em um número crescente de aplicativos, criando dados duplicados de clientes dentro e entre aplicativos com inconsistências e discrepâncias. Esses dados de clientes de baixa qualidade tornam difícil perceber o valor das soluções de análise modernas. Os sintomas incluem:

  • Difícil responder a perguntas básicas de negócios como "Quem são nossos principais clientes?" e "Quantos novos clientes tivemos?", exigindo um esforço manual significativo.
  • Informações de clientes ausentes e imprecisas, dificultando o acúmulo ou detalhamento de dados.
  • Incapacidade de analisar dados de clientes em sistemas ou unidades de negócios devido à incapacidade de identificar exclusivamente um cliente através dos limites organizacionais e do sistema.
  • Insights de baixa qualidade de IA e aprendizado de máquina devido a dados de entrada de baixa qualidade.

Produto 360

Os dados do produto geralmente se espalham por vários aplicativos corporativos, como ERP, PLM ou comércio eletrônico. O resultado é um desafio para entender o catálogo total de produtos que têm definições inconsistentes para propriedades como nome, descrição e características do produto. E as diferentes definições de dados de referência complicam ainda mais esta situação. Os sintomas incluem:

  • Incapacidade de oferecer suporte a diferentes caminhos alternativos de rollup hierárquico e detalhamento para análise de produtos.
  • Quer se trate de produtos acabados ou de inventário de materiais, dificuldade em compreender exatamente quais os produtos que tem à mão, os fornecedores aos quais compra os seus produtos e produtos duplicados, levando a um excesso de inventário.
  • Dificuldade em racionalizar produtos devido a definições conflitantes, que levam a informações ausentes ou imprecisas nas análises.

Dados de referência 360

No contexto da análise, os dados de referência existem como inúmeras listas de dados que ajudam a descrever melhor outros conjuntos de dados mestres. Os dados de referência podem incluir listas de países e regiões, moedas, cores, tamanhos e unidades de medida. Dados de referência inconsistentes levam a erros óbvios na análise a jusante. Os sintomas incluem:

  • Múltiplas representações da mesma coisa. Por exemplo, o estado da Geórgia aparece como "GA" e "Geórgia", o que dificulta a agregação e detalhamento dos dados de forma consistente.
  • Dificuldade em agregar dados entre aplicativos devido à incapacidade de cruzar os valores de dados de referência entre sistemas. Por exemplo, a cor vermelha aparece como "R" no sistema ERP e "Vermelho" no sistema PLM.
  • Dificuldade em fazer a correspondência de números entre organizações devido a diferenças nos valores de dados de referência acordados para categorizar dados.

Finanças 360

As organizações financeiras dependem fortemente de dados para atividades críticas, como relatórios mensais, trimestrais e anuais. As organizações com vários sistemas financeiros e contábeis geralmente têm dados financeiros em vários livros contábeis, que consolidam para produzir relatórios financeiros. O MDM pode fornecer um local centralizado para mapear e gerenciar contas, centros de custo, entidades comerciais e outros conjuntos de dados financeiros para uma exibição consolidada. Os sintomas incluem:

  • Dificuldade em agregar dados financeiros em vários sistemas em uma visão consolidada.
  • Falta de processo para adicionar e mapear novos elementos de dados nos sistemas financeiros.
  • Atrasos na produção de relatórios financeiros de fim de período.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que podem ser usados para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.

Fiabilidade

A confiabilidade garante que seu aplicativo possa atender aos compromissos que você assume com seus clientes. Para obter mais informações, consulte Visão geral do pilar de confiabilidade.

O Profisee é executado nativamente no Serviço Kubernetes do Azure e no Banco de Dados SQL do Azure. Ambos os serviços oferecem recursos prontos para oferecer suporte à alta disponibilidade.

Eficiência de desempenho

Eficiência de desempenho é a capacidade da sua carga de trabalho para dimensionar para satisfazer as exigências que os utilizadores lhe colocam de forma eficiente. Para obter mais informações, consulte Visão geral do pilar de eficiência de desempenho.

O Profisee é executado nativamente no Serviço Kubernetes do Azure e no Banco de Dados SQL do Azure. Você pode configurar o Serviço Kubernetes do Azure para dimensionar o Profisee para cima e para fora, dependendo da necessidade. Você pode implantar o Banco de Dados SQL do Azure em muitas configurações diferentes para equilibrar desempenho, escalabilidade e custos.

Segurança

A segurança oferece garantias contra ataques deliberados e o abuso de seus valiosos dados e sistemas. Para obter mais informações, consulte Visão geral do pilar de segurança.

O Profisee autentica usuários através do OpenID Connect, que implementa um fluxo de autenticação OAuth 2.0. A maioria das organizações configura o Profisee para autenticar usuários no Microsoft Entra ID. Esse processo garante que as políticas corporativas para autenticação sejam aplicadas e impostas.

Otimização de custos

A otimização de custos consiste em procurar formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Visão geral do pilar de otimização de custos.

Os custos de funcionamento consistem numa licença de software e no consumo do Azure. Para mais informações, contacte o Profisee.

Implementar este cenário

Para implantar esse cenário:

  1. Implante o Profisee no Azure usando um modelo ARM.
  2. Crie um Azure Data Factory.
  3. Configure seu Azure Data Factory para se conectar a um repositório Git.
  4. Adicione os modelos do Azure Data Factory do Profisee ao seu repositório Git do Azure Data Factory.
  5. Crie um novo Pipeline do Azure Data Factory usando um modelo.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Próximos passos

Guias de arquitetura

Arquiteturas de referência