Várias zonas de dados para análise em escala de nuvem no Azure

Essa arquitetura de referência destina-se a organizações que implementaram uma versão básica da análise em escala de nuvem e agora estão prontas para hospedar novas unidades de negócios para ajudar a modernizar suas operações de análise. Esse cenário mais complexo usa várias zonas de aterrissagem, aplicativos de dados e produtos de dados.

Apache Hive e o logotipo do Hive são marcas registradas ou marcas comerciais da Apache Software Foundation nos Estados Unidos e/ou em outros países. O uso desta marca não implica aprovação por parte da Apache Software Foundation.

Problema declarado

A Relecloud, a empresa fictícia neste exemplo, é um provedor de nuvem privada que oferece recursos de computação e armazenamento compartilhados para organizações globais. Embora o Relecloud forneça recursos de computação, eles não querem restringir sua plataforma com suas próprias operações internas. Portanto, eles dependem do Microsoft Azure para suas necessidades de computação interna.

Os analistas de dados do grupo de operações usam dados de telemetria de serviços de nuvem para entender como seus clientes usam a plataforma. Uma equipe separada de analistas no grupo de cobrança estuda os dados de faturamento para obter insights sobre quais serviços geram mais receita.

No último trimestre, a equipe de operações modernizou sua plataforma de análise migrando-a para o Azure. Um objetivo na implementação de análises em escala de nuvem foi maximizar o potencial de dimensionamento da plataforma e adição de novas cargas de trabalho organizacionais.

Hoje, o grupo de cobrança superou sua solução de análise atual. O volume de faturas a serem analisadas é muito grande para o servidor local. A equipe decide seguir a liderança do grupo de operações e modernizar sua plataforma de análise de dados no Azure.

Os analistas do grupo de faturamento têm habilidades diferentes dos analistas do grupo de operações. Os analistas de faturamento não querem ser constrangidos a usar as mesmas ferramentas que as operações. O grupo de faturamento está em uma parte diferente da organização e deseja flexibilidade para implementar as políticas e procedimentos que atendam às suas necessidades.

Solução de arquitetura

A Relecloud dimensiona sua plataforma de análise adicionando uma nova zona de aterrissagem para o grupo de faturamento. Essa zona de aterrissagem fornece um espaço de trabalho virtual para o grupo de faturamento implementar as soluções de análise que atendem às suas necessidades de negócios. Ao ter uma zona de aterrissagem separada dos outros recursos da organização, o grupo de faturamento pode implementar suas próprias políticas de acesso e contabilizar os custos de seus serviços.

O diagrama a seguir não representa todos os serviços do Azure. O diagrama é simplificado para destacar os conceitos centrais de organização de recursos dentro da arquitetura.

Diagram of a multiple landing zone architecture for cloud-scale analytics.

Zona de destino do gerenciamento de dados

Um requisito fundamental para uma implementação de análise em escala de nuvem é uma zona de aterrissagem de gerenciamento de dados. Esta assinatura contém recursos que são compartilhados em todas as zonas de aterrissagem, incluindo componentes de rede compartilhados, como um firewall ou zonas DNS privadas. A zona de aterrissagem de gerenciamento de dados também inclui recursos para governança de dados e nuvem, como a Política do Azure e o Azure Purview.

A Relecloud criou uma zona de aterrissagem de gerenciamento de dados quando implantou a solução de análise de dados para o grupo de operações. Quando o grupo de faturamento ingressa na plataforma, ele usa a mesma zona de aterrissagem de gerenciamento de dados para compartilhar recursos comuns com o grupo de operações.

Zona de destino de dados de operações

O grupo de operações tem as seguintes soluções em sua zona de aterrissagem de dados.

Aplicativos de dados de operações

A equipe criou um aplicativo de dados alinhado à origem que usa trabalhos do Apache Spark no Azure Databricks para ingerir dados de telemetria de serviço e armazená-los em uma conta de Armazenamento do Azure Data Lake.

Esse processo copia os dados como estão do sistema de origem, mas não os transforma. Os analistas podem trabalhar com os dados copiados na plataforma de análise sem sobrecarregar o sistema de origem. Em vez de criar uma implantação dedicada para esse aplicativo de dados, a equipe de operações usa o espaço de trabalho Databricks no grupo de recursos compartilhado Ingest & Processing .

Os clientes do Relecloud podem criar contas de nuvem para gerenciar recursos e cobrança em suas nuvens privadas. Cada cliente pode ter várias contas. A equipe de análise criou um aplicativo de dados para importar os dados da conta na nuvem. Como o volume e a frequência dos dados são muito menores do que os dados de telemetria, a equipe não precisa usar trabalhos do Spark. Em vez disso, eles criaram pipelines do Azure Data Factory para copiar os dados.

O Banco de Dados do Azure para MySQL atua como o metastore do Hive e o Banco de Dados SQL do Azure é o metastore do Azure Data Factory.

Produtos de dados de operações

Os analistas da Relecloud obtêm valor dos dados nos aplicativos de dados alinhados à origem criando novos aplicativos de dados alinhados ao consumidor. Um desses aplicativos de dados alinhados ao consumidor é um modelo de Recomendador de serviço em nuvem. Os cientistas de dados da Relecloud usaram o Aprendizado de Máquina do Azure para criar um modelo que examina os serviços que uma conta de nuvem consome e sugere serviços relacionados que podem ser úteis. A equipe implanta esse modelo em um cluster do Serviço de Kubernetes do Azure (AKS) em execução na zona de aterrissagem e gerenciado pelo Aprendizado de Máquina do Azure. Os aplicativos executados fora da análise em escala de nuvem podem chamar o ponto de extremidade AKS para obter recomendações.

Depois que a equipe de faturamento cria sua zona de aterrissagem, a equipe de operações cria um novo produto de dados que sua equipe de gerenciamento solicita. A equipe de gerenciamento quer saber quanto de receita o aplicativo de dados de recomendação de serviço de nuvem gera. O novo produto de dados de receita Recommender usa o Azure Synapse Analytics para combinar dados do Recomendador de serviço de nuvem e Receita por serviço em um novo produto de dados. Os analistas de negócios podem se conectar ao Azure Synapse com o Microsoft Power BI para encontrar e relatar insights desse novo produto de dados.

Zona de destino de dados de cobrança

O grupo de faturamento estava usando um sistema local para alimentar suas análises, mas à medida que o volume de dados crescia e a empresa dependia mais de seu trabalho, o sistema não conseguia acompanhar o ritmo. O grupo moderniza sua plataforma migrando para a nuvem.

O grupo de faturamento não compartilha uma zona de pouso com o grupo de operações, mas obtém sua própria zona de pouso, onde eles têm a liberdade de construir a plataforma que melhor se adapta às suas necessidades. A nova zona de aterrissagem está conectada à zona de aterrissagem de gerenciamento de dados e a todas as outras zonas de aterrissagem de dados com emparelhamento de rede virtual. Esse mecanismo permite que os dados sejam compartilhados com segurança por meio da rede interna do Azure.

Aplicativos de dados de cobrança

Para inserir dados de sistemas existentes na plataforma de análise, o grupo de faturamento cria dois aplicativos de dados. O primeiro aplicativo ingere os dados do cliente, incluindo a lista completa de clientes e todos os dados relacionados, como endereços de clientes, locais e atribuições de vendedores. O segundo aplicativo importa o histórico de faturas da empresa, que inclui todos os encargos de faturamento para clientes e os dados de pagamento relacionados.

Ambos os aplicativos são alimentados por pipelines no espaço de trabalho compartilhado do Azure Synapse. Cada aplicativo tem um pool de computação dedicado para facilitar a contabilidade de custos e os limites de segurança. Como os aplicativos podem ser totalmente implementados com recursos compartilhados, o grupo de cobrança não precisa criar uma implantação para esses aplicativos de dados.

Produto de dados de faturamento

Os analistas de faturamento criam um novo produto de dados chamado Receita por serviço que analisa quanto de receita cada serviço de nuvem gera para a Relecloud. Este produto depende dos dados na ingestão de Notas Fiscais. O produto também se conecta à zona de aterrissagem de operações e lê os dados de uso do serviço. Como os aplicativos de dados, o produto de dados também depende do espaço de trabalho compartilhado do Azure Synapse.

Modelos de implantação

Para implantar as arquiteturas, use os seguintes modelos de implementação de referência de zona de aterrissagem de gerenciamento de dados e zona de aterrissagem de dados:

Use os modelos a seguir para implantar outros aplicativos de dados e produtos de dados nas zonas de aterrissagem de dados de faturamento e operações do Relecloud:

Nome Zona de destino dos dados Tipo Modelo
Contas de nuvem Operações Aplicativo de dados Modelo de lote do produto de dados
Receita do recomendador Operações Produto de dados Modelo de lote do produto de dados
Recomendação do serviço de nuvem Operações Aplicativo de dados Modelo de análise de produto de dados
Receita por serviço Cobrança Produto de dados Modelo de lote do produto de dados

Importante

O Relecloud não precisa implantar tudo nos modelos de implementação de referência anteriores para atender às suas necessidades. Os modelos exigem algum nível de personalização. Remova os serviços que você não precisa dos modelos antes da implantação.

Próximas etapas

Continue para o cenário da Lamna Healthcare para análises seguras em escala de nuvem no Azure.

Para obter mais informações, consulte os seguintes artigos: