Tutorial: analisar relatórios de inventário de blobs

Artigo
06/01/2023

Ao entender como os blobs e contêineres são armazenados, organizados e usados na produção, você pode otimizar melhor as compensações entre custo e desempenho.

Este tutorial mostra como gerar e visualizar estatísticas como crescimento de dados ao longo do tempo, dados adicionados ao longo do tempo, número de arquivos modificados, tamanhos de instantâneo de blob, padrões de acesso em cada camada e como os dados são distribuídos atualmente e ao longo do tempo (por exemplo: dados entre camadas, tipos de arquivo, em contêineres e tipos de blob).

Neste tutorial, você aprenderá como:

Gerar um relatório de inventário de blobs
Configurar um workspace do Synapse
Configurar o Synapse Studio
Gerar dados analíticos no Synapse Studio
Visualizar os resultados no Power BI

Pré-requisitos

Uma assinatura do Azure – criar uma conta gratuitamente
Uma conta de armazenamento do Azure – criar uma conta de armazenamento

Verifique se a sua identidade de usuário tem a função Colaborador de Dados do Storage Blob atribuída a ela.

Gerar um relatório de inventário

Habilite os relatórios de inventário de blobs para a sua conta de armazenamento. Consulte Habilitar relatórios de inventário de blobs do Armazenamento do Azure.

Talvez seja necessário aguardar até 24 horas depois de habilitar os relatórios de inventário para que o seu primeiro relatório seja gerado.

Configurar um workspace do Synapse

Crie um workspace do Azure Synapse. Consulte Criar um workspace do Azure Synapse.

Observação

Como parte da criação do workspace, você criará uma conta de armazenamento que tenha um namespace hierárquico. O Azure Synapse armazena tabelas do Spark e logs de aplicativos para essa conta. O Azure Synapse refere-se a essa conta como a conta de armazenamento primária. Para evitar confusão, este artigo usa o termo conta de relatório de inventário para se referir à conta que contém relatórios de inventários.
No workspace do Synapse, atribua a função Colaborador à identidade de usuário. Consulte RBAC do Azure: função Proprietário do workspace.
Para conceder ao workspace do Synapse a permissão para acessar os relatórios de inventário na conta de armazenamento, navegue até a conta de relatório de inventário e atribua a função Colaborador de Dados de Blob de Armazenamento à identidade gerenciada do sistema do workspace. Confira Atribuir funções do Azure usando o portal do Azure.
Navegue até a conta de armazenamento primária e atribua a função Colaborador do Armazenamento de Blobs à sua identidade de usuário.

Configurar o Synapse Studio

Abra o workspace do Synapse no Synapse Studio. Consulte Abrir o Synapse Studio.
No Synapse Studio, verifique se sua identidade foi atribuída à função Administrador do Synapse. Consulte RBAC do Synapse: função Administrador do Synapse para o workspace.
Crie um Pool do Apache Spark. Consulte Criar um pool do Apache Spark sem servidor.

Configurar e executar o notebook de exemplo

Nesta seção, você vai gerar dados estatísticos que visualizará em um relatório. Para simplificar este tutorial, esta seção usa um arquivo de configuração de exemplo e um notebook PySpark de exemplo. O notebook contém uma coleção de consultas que são executadas no Azure Synapse Studio.

Modificar e carregar o arquivo de configuração de exemplo

Baixe o arquivo BlobInventoryStorageAccountConfiguration.json.
Atualize os seguintes espaços reservados desse arquivo:
- Defina storageAccountName como o nome da sua conta de relatório de inventário.
- Defina destinationContainer como o nome do contêiner que contém os relatórios de inventário.
- Defina blobInventoryRuleName como o nome da regra de relatório de inventário que gerou os resultados que você gostaria de analisar.
- Defina accessKey como a chave da conta de relatório de inventário.
Carregue esse arquivo no contêiner em sua conta de armazenamento primária que você especificou ao criar o workspace do Synapse.

Importar o notebook PySpark de exemplo

Baixe o notebook de exemplo ReportAnalysis.ipynb.

Observação

Salve esse arquivo com a extensão .ipynb.
Abra o workspace do Synapse no Synapse Studio. Consulte Abrir o Synapse Studio.
No Synapse Studio, selecione a guia Desenvolver.
Selecione o sinal de adição (+) para adicionar um item.
Selecione Importar, navegue até o arquivo de exemplo que você baixou, selecione-o e escolha Abrir.

A caixa de diálogo Propriedades é exibida.
Na caixa de diálogo Propriedades, selecione o link Configurar sessão.

A caixa de diálogo Configurar sessão é aberta.
Na lista suspensa Anexar a da caixa de diálogo Configurar sessão, selecione o pool do Spark criado anteriormente neste artigo. Em seguida, selecione o botão Aplicar.

Modificar o notebook Python

Na primeira célula do notebook Python, defina o valor da variável storage_account como o nome da conta de armazenamento primária.
Atualize o valor da variável container_name para o nome do contêiner nessa conta que você especificou ao criar o workspace do Synapse.
Clique no botão Publicar.

Executar o notebook PySpark

No notebook PySpark, selecione Executar tudo.

Levará alguns minutos para iniciar a sessão do Spark e mais alguns minutos para processar os relatórios de inventário. A primeira execução poderá demorar um pouco se houver vários relatórios de inventário a serem processados. As execuções subsequentes só processarão os novos relatórios de inventário criados desde a última execução.

Observação

Se você fizer alterações no notebook em execução, publique essas alterações usando o botão Publicar.
Para verificar se o notebook foi executado com êxito, selecione a guia Dados.

Um banco de dados chamado reportdata deve aparecer na guia Workspace do painel Dados. Se esse banco de dados não aparecer, talvez seja necessário atualizar a página da Web.

O banco de dados contém um conjunto de tabelas. Cada tabela contém informações obtidas ao executar as consultas no notebook PySpark.
Para examinar o conteúdo de uma tabela, expanda a pasta Tabelas do banco de dados reportdata. Em seguida, clique com o botão direito do mouse em uma tabela, escolha Selecionar script SQL e Selecionar as PRIMEIRAS 100 linhas.
Você pode modificar a consulta conforme necessário e, em seguida, selecionar Executar para exibir os resultados.

Visualizar os dados

Baixe o arquivo de relatório de exemplo ReportAnalysis.pbit.
Abra o Power BI Desktop. Para obter diretrizes de instalação, consulte Obter Power BI Desktop.
No Power BI, selecione Arquivo, Abrir relatório e Procurar relatórios.
Na caixa de diálogo Abrir, altere o tipo de arquivo para arquivos de modelo do Power BI (*.pbit).
Navegue até o local do arquivo ReportAnalysis.pbit que você baixou e selecione Abrir.

A caixa de diálogo exibida solicita que você forneça o nome do workspace do Synapse e o nome da base de dados.
Na caixa de diálogo, defina o campo synapse_workspace_name como o nome do workspace e defina o campo database_name como reportdata. Em seguida, selecione o botão Carregar.

Aparece um relatório que fornece visualizações dos dados recuperados pelo notebook. As imagens a seguir mostram os tipos de gráficos e gráficos que aparecem neste relatório.

Próximas etapas

Configure um pipeline do Azure Synapse para continuar executando seu notebook em intervalos regulares. Dessa forma, você pode processar novos relatórios de inventário conforme eles são criados. Após a execução inicial, cada uma das próximas execuções analisará os dados incrementais e atualizará as tabelas com os resultados dessa análise. Para obter diretrizes, consulte Integrar com pipelines.
Saiba mais sobre maneiras de analisar contêineres individuais em sua conta de armazenamento. Consulte estes artigos:

Calcule a contagem de blobs e o tamanho total por contêiner usando o inventário de Armazenamento do Azure

Tutorial: Calcular estatísticas de contêiner usando o Databricks
Saiba mais sobre maneiras de otimizar seus custos de acordo com a análise de seus blobs e contêineres. Consulte estes artigos:

Planejar e gerenciar custos do Armazenamento de Blobs do Azure

Estimar o custo de arquivamento de dados

Otimizar os custos gerenciando automaticamente o ciclo de vida dos dados