Gerenciamento de dados mestre com o Profisee e o Azure Data Factory

Fábrica de dados do Azure
Azure Databricks
Azure Data Lake

Esse padrão de arquitetura demonstra como você pode incorporar o MDM ao ecossistema de serviços de dados do Azure para melhorar a qualidade dos dados usados para análise e tomada de decisões operacionais. O MDM resolve vários desafios comuns, incluindo:

  • Identificação e gerenciamento de dados duplicados (correspondência e mesclagem).
  • Sinalizar e resolver problemas de qualidade de dados.
  • Padronização e enriquecimento de dados.
  • Permitindo que os administradores de dados gerenciem e melhorem os dados de forma proativa.

Este padrão apresenta uma abordagem moderna para MDM. Todas as tecnologias podem ser implantadas nativamente no Azure, incluindo o Profisee, que você pode implantar por meio de contêineres e gerenciar com o Serviço de Kubernetes do Azure.

Arquitetura

Diagram showing the master data management Profisee data flow.

Baixe um arquivo do Visio dos diagramas usados nessa arquitetura.

Fluxo de dados

O fluxo de dados a seguir corresponde ao diagrama anterior:

  1. Carga de dados de origem: os dados de origem de aplicativos de negócios são copiados para o Azure Data Lake e os armazenam para transformação e uso adicionais em análises downstream. Os dados de origem geralmente se enquadram em uma das três categorias:

    • Dados mestres estruturados – as informações que descrevem clientes, produtos, locais e assim por diante. Os dados mestre são de baixo volume, alta complexidade e mudam lentamente ao longo do tempo. Muitas vezes, são os dados com os quais as organizações mais lutam em termos de qualidade de dados.
    • Dados transacionais estruturados – eventos comerciais que ocorrem em um ponto específico no tempo, como um pedido, fatura ou interação. As transações incluem as métricas dessa transação (como preço de venda) e referências a dados mestre (como o produto e o cliente envolvidos em uma compra). Os dados transacionais geralmente são de alto volume e baixa complexidade e não mudam com o tempo.
    • Dados não estruturados – dados que podem incluir documentos, imagens, vídeos, conteúdo de mídia social e áudio. As plataformas de análise modernas podem usar cada vez mais dados não estruturados para aprender novos insights. Os dados não estruturados geralmente são associados a dados mestre, como um cliente associado a uma conta de mídia social ou um produto associado a uma imagem.
  2. Carga de dados mestre de origem: os dados mestre dos aplicativos de negócios de origem são carregados no aplicativo MDM "no estado em que se encontram", com informações completas de linhagem e transformações mínimas.

  3. Processamento automatizado de MDM: a solução de MDM usa processos automatizados para padronizar, verificar e enriquecer dados, como dados de endereço. A solução também identifica problemas de qualidade de dados, agrupa registros duplicados (como clientes duplicados) e gera registros mestres, também chamados de "registros dourados".

  4. Administração de dados: conforme necessário, os administradores de dados podem:

    • Revisar e gerenciar grupos de registros correspondentes
    • Criar e gerenciar relacionamentos de dados
    • Preencha as informações faltantes
    • Resolva problemas de qualidade de dados.

    Os administradores de dados podem gerenciar vários roll-ups hierárquicos alternativos, conforme necessário, como hierarquias de produtos.

  5. Carga de dados mestre gerenciada: os dados mestres de alta qualidade fluem para soluções de análise downstream. Essa ação simplifica o processo, uma vez que as integrações de dados não exigem mais transformações de qualidade de dados.

  6. Carga de dados transacionais e não estruturados: os dados transacionais e não estruturados são carregados na solução de análise downstream, onde são combinados com dados mestre de alta qualidade.

  7. Visualização e análise: os dados são modelados e disponibilizados aos usuários corporativos para análise. Os dados mestre de alta qualidade eliminam problemas comuns de qualidade de dados, que resultam em insights aprimorados.

Componentes

  • O Azure Data Factory é um serviço de integração de dados híbrido que permite criar, agendar e orquestrar seus fluxos de trabalho de ETL e ELT.

  • O Azure Data Lake fornece armazenamento ilimitado para dados de análise.

  • O Profisee é uma plataforma de MDM escalável projetada para se integrar facilmente ao ecossistema da Microsoft.

  • O Azure Synapse Analytics é o data warehouse em nuvem rápido, flexível e confiável que permite dimensionar, computar e armazenar dados de forma elástica e independente, com uma arquitetura de processamento massivamente paralela.

  • O Power BI é um conjunto de ferramentas de análise de negócios que fornece insights em toda sua organização. Conecte-se a centenas de fontes de dados, simplifique a preparação de dados e conduza análises improvisadas. Produza belos relatórios e, em seguida, publique-os para que sua organização consuma na Web e em dispositivos móveis.

Alternativas

Na ausência de um aplicativo MDM criado especificamente para esse fim, você pode encontrar alguns dos recursos técnicos necessários para criar uma solução de MDM no ecossistema do Azure.

  • Qualidade de dados - Ao carregar em uma plataforma de análise, você pode criar qualidade de dados nos processos de integração. Por exemplo, aplique transformações de qualidade de dados em um pipeline do Azure Data Factory com scripts codificados.
  • Padronização e enriquecimento de dados - o Azure Maps ajuda a fornecer verificação e padronização de dados para dados de endereço, que você pode usar no Azure Functions e no Azure Data Factory. A padronização de outros dados pode exigir o desenvolvimento de scripts codificados.
  • Gerenciamento de dados duplicados - Você pode usar o Azure Data Factory para eliminar a duplicação de linhas onde identificadores suficientes estão disponíveis para uma correspondência exata. Nesse caso, a lógica para mesclar itens correspondidos com a sobrevivência apropriada provavelmente exigiria scripts codificados personalizados.
  • Administração de dados - Use o Power Apps para desenvolver rapidamente soluções simples de gerenciamento de dados para gerenciar dados no Azure, juntamente com interfaces de usuário apropriadas para revisão, fluxo de trabalho, alertas e validações.

Detalhes do cenário

Muitos programas de transformação digital usam o Azure como núcleo. Mas isso depende da qualidade e da consistência dos dados de várias fontes, como aplicativos de negócios, bancos de dados, feeds de dados e assim por diante. Ele também agrega valor por meio de business intelligence, análise, aprendizado de máquina e muito mais. A solução de Gerenciamento de Dados Mestres (MDM) da Profisee conclui o estado de dados do Azure com um método prático para "alinhar e combinar" dados de várias fontes. Ele faz isso impondo padrões de dados consistentes nos dados de origem, como corresponder, mesclar, padronizar, verificar e corrigir. A integração nativa com o Azure Data Factory e outros Serviços de Dados do Azure simplifica ainda mais esse processo para acelerar a entrega de benefícios comerciais do Azure.

Um aspecto central de como as soluções MDM funcionam é que elas combinam dados de várias fontes para criar um "mestre de registro de ouro" que contém os dados mais conhecidos e confiáveis para cada registro. Essa estrutura cria domínio por domínio de acordo com os requisitos, mas quase sempre requer vários domínios. Os domínios comuns são cliente, produto e localização. Mas os domínios podem representar qualquer coisa, desde dados de referência até contratos e nomes de medicamentos. Em geral, quanto melhor a cobertura de domínio que você pode criar em relação aos amplos requisitos de dados do Azure, melhor.

Pipeline de integração do MDM

Image that shows the master data management Profisee integration pipeline.

Baixe um Arquivo Visio dessa arquitetura.

A imagem anterior mostra os detalhes para integração com a solução de MDM do Profisee. Observe que o Azure Data Factory e o Profisee incluem suporte nativo à integração REST, fornecendo uma integração leve e moderna.

  1. Carregar dados de origem no MDM: o Azure Data Factory extrai dados do data lake, transforma-os para corresponder ao modelo de dados mestre e os transmite para o repositório MDM por meio de um coletor REST.

  2. Processamento de MDM: A plataforma MDM processa dados mestres de origem por meio de uma sequência de atividades para verificar, padronizar e enriquecer os dados e executar processos de qualidade de dados. Finalmente, o MDM executa correspondência e sobrevivência para identificar e agrupar registros duplicados e criar registros mestres. Opcionalmente, os administradores de dados podem executar tarefas que resultam em um conjunto de dados mestre para uso em análises downstream.

  3. Carregar dados mestres para análise: o Azure Data Factory usa sua fonte REST para transmitir dados mestres do Profisee para o Azure Synapse Analytics.

Modelos do Azure Data Factory para Profisee

Em colaboração com a Microsoft, o Profisee desenvolveu um conjunto de modelos do Azure Data Factory que tornam mais rápido e fácil integrar o Profisee ao ecossistema dos Serviços de Dados do Azure. Esses modelos usam a fonte de dados REST do Azure Data Factories e o coletor de dados para ler e gravar dados da API do Gateway REST do Profisee. Eles fornecem modelos para leitura e escrita para o Profisee.

Screenshot that shows MDM Profisee and the Azure Data Factory template.

Exemplo de modelo do Data Factory: JSON para Profisee em REST

As capturas de tela a seguir mostram um modelo do Azure Data Factory que copia dados de um arquivo JSON em um Azure Data Lake para o Profisee via REST.

O modelo copia os dados JSON de origem:

Screenshot that shows the source JSON data.

Em seguida, os dados são sincronizados com o Profisee via REST:

Screenshot that shows REST sync to Profisee.

Para obter mais informações, confira Modelos do Azure Data Factory para Profisee.

Processamento de MDM

Em um caso de uso de MDM analítico, os dados geralmente são processados por meio da solução de MDM automaticamente para carregar dados para análise. As seções a seguir mostram um processo típico para dados de clientes nesse contexto.

1. Carregamento de dados de origem

Os dados de origem são carregados na solução MDM a partir de sistemas de origem, incluindo informações de linhagem. Nesse caso, temos dois registros de origem, um do CRM e outro do aplicativo ERP. Após a inspeção visual, os dois registros parecem representar a mesma pessoa.

Nome da Origem Endereço de origem Estado de Origem Telefone de origem ID da origem Endereço padrão Estado padrão Nome padrão Telefone padrão Similaridade
Alana Bosh 123 Main Street GA 7708434125 CRM-100
Bosch, Alana Rua Principal, 123 Geórgia 404-854-7736 CRM-121
Alana Bosch (404) 854-7736 ERP-988

2. Verificação e padronização de dados

As regras e serviços de verificação e padronização ajudam a padronizar e verificar as informações de endereço, nome e número de telefone.

Nome da Origem Endereço de origem Estado de Origem Telefone de origem ID da origem Endereço padrão Estado padrão Nome padrão Telefone padrão Similaridade
Alana Bosh 123 Main Street GA 7708434125 CRM-100 Rua Principal, 123 GA Alana Bosh 770 843 4125
Bosch, Alana Rua Principal, 123 Geórgia 404-854-7736 CRM-121 Rua Principal, 123 GA Alana Bosch 404 854 7736
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736

3. Correspondência

Com os dados padronizados, ocorre o pareamento, identificando a semelhança entre os registros no grupo. Nesse cenário, dois registros se correspondem exatamente em Nome e Telefone e os outros são correspondências não exatas em Nome e Endereço.

Nome da Origem Endereço de origem Estado de Origem Telefone de origem ID da origem Endereço padrão Estado padrão Nome padrão Telefone padrão Similaridade
Alana Bosh 123 Main Street GA 7708434125 CRM-100 Rua Principal, 123 GA Alana Bosh 770 843 4125 0,9
Bosch, Alana Rua Principal, 123 Geórgia 404-854-7736 CRM-121 Rua Principal, 123 GA Alana Bosch 404 854 7736 1.0
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736 1.0

4. Sobrevivência

Com um grupo formado, a sobrevivência cria e preenche um registro mestre (também chamado de "registro de ouro") para representar o grupo.

Nome da Origem Endereço de origem Estado de Origem Telefone de origem ID da origem Endereço padrão Estado padrão Nome padrão Telefone padrão Similaridade
Alana Bosh 123 Main Street GA 7708434125 CRM-100 Rua Principal, 123 GA Alana Bosh 770 843 4125 0,9
Bosch, Alana Rua Principal, 123 Geórgia 404-854-7736 CRM-121 Rua Principal, 123 GA Alana Bosch 404 854 7736 1.0
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736 1.0
Registro mestre: Rua Principal, 123 GA Alana Bosch 404 854 7736

Esse registro mestre, juntamente com dados de origem aprimorados e informações de linhagem, é carregado na solução de análise downstream, onde se vincula a dados transacionais.

Este exemplo mostra o processamento MDM básico e automatizado. Você também pode usar regras de qualidade de dados para calcular e atualizar valores automaticamente e sinalizar valores ausentes ou inválidos para os administradores de dados resolverem. Os administradores de dados ajudam a gerenciar os dados, incluindo o gerenciamento de pacotes cumulativos hierárquicos de dados.

O impacto do MDM na complexidade da integração

Como mostrado anteriormente, o MDM aborda vários desafios comuns encontrados ao integrar dados em uma solução de análise. Isso inclui corrigir problemas de qualidade de dados, padronizar e enriquecer dados e racionalizar dados duplicados. A incorporação do MDM em sua arquitetura de análise altera fundamentalmente o fluxo de dados, eliminando a lógica codificada no processo de integração e transferindo-a para a solução MDM, o que simplifica significativamente as integrações. A tabela a seguir descreve algumas diferenças comuns no processo de integração com e sem MDM.

Funcionalidade Sem MDM Com MDM
Qualidade dos dados Os processos de integração incluem regras de qualidade e transformações para ajudar a corrigir e corrigir os dados à medida que eles se movem. Ele requer recursos técnicos para a implementação inicial e a manutenção contínua dessas regras, tornando os processos de integração de dados complicados e caros de se desenvolver e manter. A solução MDM configura e impõe regras e lógica de qualidade de dados. Os processos de integração não executam transformações de qualidade de dados, movendo os dados "como estão" para a solução MDM. Os processos de integração de dados são simples e acessíveis de se desenvolver e manter.
Padronização e enriquecimento de dados Os processos de integração incluem lógica para padronizar e alinhar dados mestre e de referência. Desenvolver integrações com serviços de terceiros para realizar padronização de endereço, nome, e-mail e dados telefônicos. Usando regras internas e integrações prontas para uso com serviços de dados de terceiros, você pode padronizar dados na solução MDM, o que simplifica a integração.
Gerenciamento de dados duplicado O processo de integração identifica e agrupa registros duplicados que existem dentro e entre aplicativos com base em identificadores exclusivos existentes. Esse processo compartilha identificadores entre sistemas (por exemplo, SSN ou email) e só os corresponde e agrupa quando idênticos. Abordagens mais sofisticadas exigem investimentos significativos em engenharia de integração. Recursos internos de correspondência de aprendizado de máquina identificam registros duplicados dentro e entre sistemas, gerando um registro de ouro para representar o grupo. Esse processo permite que os registros sejam "difusos combinados", agrupando registros que são semelhantes, com resultados explicáveis. Ele gerencia grupos em cenários em que o mecanismo de ML não consegue formar um grupo com alta confiança.
Administração de dados As atividades de gerenciamento de dados apenas atualizam os dados nos aplicativos de origem, como ERP ou CRM. Normalmente, eles descobrem problemas, como dados ausentes, incompletos ou incorretos, ao executar análises. Eles corrigem os problemas no aplicativo de origem e, em seguida, os atualizam na solução de análise durante a próxima atualização. Qualquer nova informação a ser gerenciada é adicionada aos aplicativos de origem, o que leva tempo e é caro. As soluções MDM têm recursos internos de gerenciamento de dados que permitem que os usuários acessem e gerenciem dados. Idealmente, o sistema sinaliza problemas e solicita que os administradores de dados os corrijam. Configure rapidamente novas informações ou hierarquias na solução para que os administradores de dados as gerenciem.

Casos de uso do MDM

Embora existam vários casos de uso para MDM, alguns casos de uso abrangem a maioria das implementações de MDM do mundo real. Embora esses casos de uso se concentrem em um único domínio, é improvável que eles sejam criados apenas a partir desse domínio. Em outras palavras, mesmo esses casos de uso focados provavelmente incluem diversos domínios de dados mestre.

Cliente 360

A consolidação de dados do cliente para análise é o caso de uso mais comum do MDM. As organizações capturam dados de clientes em um número crescente de aplicativos, criando dados duplicados do cliente dentro e entre aplicativos com inconsistências e discrepâncias. Esses dados de clientes de baixa qualidade dificultam a percepção do valor das soluções de análise modernas. Os sintomas incluem:

  • Difícil responder a perguntas básicas de negócios como "Quem são nossos principais clientes?" e "Quantos novos clientes tivemos?", exigindo um esforço manual significativo.
  • Informações de clientes ausentes e imprecisas, dificultando a acumulação ou o detalhamento dos dados.
  • Incapacidade de analisar dados de clientes entre sistemas ou unidades de negócios devido à incapacidade de identificar exclusivamente um cliente além dos limites organizacionais e do sistema.
  • Insights de baixa qualidade da IA e do aprendizado de máquina devido a dados de entrada de baixa qualidade.

Visão geral do produto

Os dados do produto geralmente se espalham por vários aplicativos corporativos, como ERP, PLM ou comércio eletrônico. O resultado é um desafio para entender o catálogo total de produtos que têm definições inconsistentes para propriedades, como o nome, a descrição e as características do produto. E diferentes definições de dados de referência complicam ainda mais essa situação. Os sintomas incluem:

  • A incapacidade de dar suporte a diferentes caminhos hierárquicos alternativos de acúmulo e detalhamento para análises de produtos.
  • Seja produtos acabados ou estoque de materiais, dificuldade em entender exatamente quais produtos você tem em mãos, os fornecedores dos quais você compra seus produtos e produtos duplicados, levando ao excesso de estoque.
  • Dificuldade em racionalizar produtos devido a definições conflitantes, que levam a informações ausentes ou imprecisas nas análises.

Visão geral dos dados de referência

No contexto da análise, os dados de referência existem como várias listas de dados que ajudam a descrever outros conjuntos de dados mestre. Os dados de referência podem incluir listas de países e regiões, moedas, cores, tamanhos e unidades de medida. Dados de referência inconsistentes levam a erros óbvios na análise downstream. Os sintomas incluem:

  • Diversas representações da mesma coisa. Por exemplo, o estado Geórgia aparece como "GA" e "Geórgia", o que dificulta a agregação e detalhamento de dados de forma consistente.
  • Dificuldade de agregar dados de diferentes aplicativos devido à incapacidade de cruzar os valores de dados de referência entre os sistemas. Por exemplo, a cor vermelha aparece como "R" no sistema ERP e "Vermelho" no sistema PLM.
  • Dificuldade em combinar números entre organizações devido a diferenças nos valores de dados de referência acordados para categorizar dados.

Visão geral das finanças

As organizações financeiras dependem fortemente de dados para atividades críticas, como relatórios mensais, trimestrais e anuais. As organizações com vários sistemas financeiros e contábeis geralmente têm dados financeiros em vários livros contábeis, que consolidam para produzir relatórios financeiros. O MDM pode fornecer um local centralizado para mapear e gerenciar contas, centros de custo, entidades comerciais e outros conjuntos de dados financeiros para uma exibição consolidada. Os sintomas incluem:

  • Dificuldade de agregar dados financeiros de diversos sistemas em uma exibição consolidada.
  • Ausência de um processo para adicionar e mapear novos elementos de dados nos sistemas financeiros.
  • Atrasos na produção de relatórios financeiros de fim de período.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios de orientação que podem ser usados para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, confira Microsoft Azure Well-Architected Framework.

Confiabilidade

A confiabilidade garante que seu aplicativo possa cumprir os compromissos que você assume com seus clientes. Para obter mais informações, confira Visão geral do pilar de confiabilidade.

O Profisee é executado nativamente no Serviço de Kubernetes do Azure e no Banco de Dados SQL do Azure. Ambos os serviços oferecem recursos prontos para uso para oferecer suporte à alta disponibilidade.

Eficiência de desempenho

A eficiência do desempenho é a capacidade de dimensionar sua carga de trabalho para atender às demandas colocadas por usuários de maneira eficiente. Para saber mais, confira Visão geral do pilar de eficiência de desempenho.

O Profisee é executado nativamente no Serviço de Kubernetes do Azure e no Banco de Dados SQL do Azure. Você pode configurar o Serviço Kubernetes do Azure para aumentar e reduzir a escala do Profisee, dependendo da necessidade. Você pode implantar o Banco de Dados SQL do Azure em muitas configurações diferentes para equilibrar desempenho, escalabilidade e custos.

Segurança

A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para saber mais, confira Visão geral do pilar de segurança.

O Profisee autentica usuários por meio do OpenID Connect, que implementa um fluxo de autenticação OAuth 2.0. A maioria das organizações configura o Profisee para autenticar usuários no Microsoft Entra ID. Esse processo garante que as políticas corporativas para autenticação sejam aplicadas e aplicadas.

Otimização de custo

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.

Os custos de execução consistem em uma licença de software e no consumo do Azure. Para saber mais, entre em contato com a equipe do Profisee.

Implantar este cenário

Para implantar esse cenário:

  1. Implante o Profisee no Azure usando um modelo do ARM.
  2. Crie um Azure Data Factory.
  3. Configure seu Azure Data Factory para se conectar a um repositório Git.
  4. Adicione os modelos do Azure Data Factory do Profisee ao seu repositório Git do Azure Data Factory.
  5. Crie um novo Pipeline do Azure Data Factory usando um modelo.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Próximas etapas

Guias de arquitetura

Arquiteturas de referência