Várias zonas de dados para análise em escala de nuvem no Azure

Essa arquitetura de referência é para organizações que implementaram uma versão básica da análise em escala de nuvem e agora estão prontas para hospedar novas unidades de negócios para ajudar a modernizar suas operações de análise. Esse cenário mais complexo usa várias zonas de destino, aplicativos de dados e produtos de dados.

Apache Hive e o logotipo Hive são marcas registradas ou marcas comerciais da Apache Software Foundation nos Estados Unidos e/ou em outros países. Nenhum endosso da Apache Software Foundation está implícito no uso dessas marcas.

Declaração do problema

A Relecloud, a empresa fictícia neste exemplo, é um provedor de nuvem privada que oferece recursos de computação e armazenamento compartilhados para organizações globais. Embora o Relecloud forneça recursos de computação, eles não querem restringir sua plataforma com suas próprias operações internas. Portanto, eles dependem do Microsoft Azure para suas necessidades internas de computação.

Os analistas de dados do grupo de operações usam dados de telemetria de serviços em nuvem para entender como seus clientes usam a plataforma. Uma equipe separada de analistas no grupo de faturamento estuda os dados de faturamento para obter informações sobre quais serviços geram mais receita.

No último trimestre, a equipe de operações modernizou sua plataforma de análise migrando-a para o Azure. Um dos objetivos da implementação de análises em escala de nuvem era maximizar o potencial de dimensionamento da plataforma e adicionar novas cargas de trabalho organizacionais.

Hoje, o grupo de faturamento superou sua solução de análise atual. O volume de faturas a serem analisadas é muito grande para o servidor local. A equipe decide seguir a liderança do grupo de operações e modernizar sua plataforma de análise de dados no Azure.

Os analistas do grupo de faturamento têm habilidades diferentes dos analistas do grupo de operações. Os analistas de faturamento não querem ser constrangidos a usar as mesmas ferramentas que as operações. O grupo de faturamento está em uma parte diferente da organização e quer flexibilidade para implementar as políticas e procedimentos que atendam às suas necessidades.

Solução arquitetónica

O Relecloud dimensiona sua plataforma de análise adicionando uma nova zona de destino para o grupo de faturamento. Essa zona de aterrissagem fornece um espaço de trabalho virtual para o grupo de faturamento implementar as soluções de análise que atendem às suas necessidades de negócios. Ao ter uma zona de aterrissagem separada dos outros recursos da organização, o grupo de faturamento pode implementar suas próprias políticas de acesso e contabilizar os custos de seus serviços.

O diagrama a seguir não representa todos os serviços do Azure. O diagrama é simplificado para destacar os principais conceitos de organização de recursos dentro da arquitetura.

Diagram of a multiple landing zone architecture for cloud-scale analytics.

Zona de aterrissagem de gerenciamento de dados

Um requisito fundamental para uma implementação de análise em escala de nuvem é uma zona de aterrissagem de gerenciamento de dados. Esta subscrição contém recursos que são partilhados em todas as zonas de aterragem, incluindo componentes de rede partilhados, como uma firewall ou zonas DNS privadas. A zona de aterrissagem de gerenciamento de dados também inclui recursos para governança de dados e nuvem, como o Azure Policy e o Azure Purview.

A Relecloud criou uma zona de aterrissagem de gerenciamento de dados quando implantou a solução de análise de dados para o grupo de operações. Quando o grupo de faturamento ingressa na plataforma, eles usam a mesma zona de aterrissagem de gerenciamento de dados para compartilhar recursos comuns com o grupo de operações.

Zona de aterrissagem de dados de operações

O grupo de operações tem as seguintes soluções em sua zona de pouso de dados.

Aplicativos de dados de operações

A equipe criou um aplicativo de dados alinhado à origem que usa trabalhos do Apache Spark no Azure Databricks para ingerir dados de telemetria de serviço e armazená-los em uma conta de Armazenamento do Azure Data Lake.

Esse processo copia os dados como estão do sistema de origem, mas não os transforma. Os analistas podem trabalhar com os dados copiados na plataforma de análise sem sobrecarregar o sistema de origem. Em vez de criar uma implantação dedicada para esse aplicativo de dados, a equipe de operações usa o espaço de trabalho Databricks no grupo de recursos compartilhado Ingest & Processing .

Os clientes Relecloud podem criar contas na nuvem para gerenciar recursos e faturamento em suas nuvens privadas. Cada cliente pode ter várias contas. A equipe de análise criou um aplicativo de dados para importar os dados da conta na nuvem. Como o volume e a frequência dos dados são muito menores do que os dados de telemetria, a equipe não precisa usar trabalhos do Spark. Em vez disso, eles criaram pipelines do Azure Data Factory para copiar os dados.

O Banco de Dados do Azure para MySQL atua como o metastore do Hive e o Banco de Dados SQL do Azure é o metastore do Azure Data Factory.

Produtos de dados de operações

Os analistas da Relecloud obtêm valor dos dados nos aplicativos de dados alinhados à fonte criando novos aplicativos de dados alinhados ao consumidor. Um desses aplicativos de dados alinhados ao consumidor é um modelo de recomendação de serviço em nuvem. Os cientistas de dados da Relecloud usaram o Azure Machine Learning para criar um modelo que analisa os serviços que uma conta de nuvem consome e sugere serviços relacionados que podem ser úteis. A equipe implanta esse modelo em um cluster do Serviço Kubernetes do Azure (AKS) em execução na zona de aterrissagem e gerenciado pelo Azure Machine Learning. Os aplicativos executados fora da análise em escala de nuvem podem chamar o ponto de extremidade AKS para obter recomendações.

Depois que a equipe de faturamento cria sua zona de destino, a equipe de operações cria um novo produto de dados que sua equipe de gerenciamento solicita. A equipe de gerenciamento quer saber quanto de receita o aplicativo de dados de recomendação de serviço de nuvem gera. O novo produto de dados de receita do Recommender usa o Azure Synapse Analytics para combinar dados do Recomendador de serviço de nuvem e Receita por serviço em um novo produto de dados. Os analistas de negócios podem se conectar ao Azure Synapse com o Microsoft Power BI para localizar e relatar insights desse novo produto de dados.

Zona de aterrissagem de dados de faturamento

O grupo de faturamento estava usando um sistema local para potencializar suas análises, mas à medida que o volume de dados crescia e a empresa dependia mais de seu trabalho, o sistema não conseguia acompanhar o ritmo. O grupo moderniza sua plataforma migrando para a nuvem.

O grupo de faturamento não compartilha uma zona de pouso com o grupo de operações, mas obtém sua própria zona de pouso, onde eles têm a liberdade de construir a plataforma que melhor atende às suas necessidades. A nova zona de pouso está conectada à zona de pouso de gerenciamento de dados e a todas as outras zonas de pouso de dados com emparelhamento de rede virtual. Esse mecanismo permite que os dados sejam compartilhados com segurança por meio da rede interna do Azure.

Aplicações de dados de faturação

Para transferir dados de sistemas existentes para a plataforma de análise, o grupo de faturamento cria dois aplicativos de dados. O primeiro aplicativo ingere os dados do cliente, incluindo a lista completa de clientes e todos os dados relacionados, como endereços de clientes, locais e atribuições de vendedores. O segundo aplicativo importa o histórico de faturas da empresa, que inclui todos os encargos de faturamento para os clientes e os dados de pagamento relacionados.

Ambos os aplicativos são alimentados por pipelines no espaço de trabalho compartilhado do Azure Synapse. Cada aplicativo tem um pool de computação dedicado para facilitar a contabilidade de custos e os limites de segurança. Como os aplicativos podem ser totalmente implementados com recursos compartilhados, o grupo de cobrança não precisa criar uma implantação para esses aplicativos de dados.

Produto de dados de faturação

Os analistas de faturamento criam um novo produto de dados chamado Receita por serviço que analisa quanto de receita cada serviço de nuvem gera para o Relecloud. Este produto baseia-se nos dados da ingestão de Faturas . O produto também se conecta à zona de aterrissagem de operações e lê os dados de uso do serviço. Como os aplicativos de dados, o produto de dados também depende do espaço de trabalho compartilhado do Azure Synapse.

Modelos de implementação

Para implantar as arquiteturas, use os seguintes modelos de implementação de referência de zona de aterrissagem de gerenciamento de dados e zona de aterrissagem de dados:

Use os seguintes modelos para implantar outros aplicativos de dados e produtos de dados nas zonas de aterrissagem de dados de faturamento e operações do Relecloud:

Nome Zona de aterragem de dados Type Template
Contas na cloud Operations Aplicação de dados Modelo de lote de produto de dados
Receitas recomendadas Operations Produto de dados Modelo de lote de produto de dados
Recomendação de serviço na nuvem Operations Aplicação de dados Modelo de análise de produto de dados
Receitas por serviço Faturação Produto de dados Modelo de lote de produto de dados

Importante

O Relecloud não precisa implantar tudo nos modelos de implementação de referência anteriores para atender às suas necessidades. Os modelos exigem algum nível de personalização. Remova os serviços de que não precisa dos modelos antes da implantação.

Próximos passos

Continue para o cenário Lamna Healthcare para análises seguras em escala de nuvem no Azure.

Para obter mais informações, consulte os seguintes artigos que podem estar em inglês: