Integração de dados usando o Azure Data Factory e o Azure Data Share

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

À medida que os clientes embarcam em seus projetos modernos de data warehouse e análise, eles precisam não apenas de mais dados, mas também de mais visibilidade em seus dados em todo o seu patrimônio de dados. Este workshop analisa como as melhorias no Azure Data Factory e no Azure Data Share simplificam a integração e o gerenciamento de dados no Azure.

Desde habilitar ETL/ELT sem código até criar uma visão abrangente sobre seus dados, as melhorias no Azure Data Factory capacitam seus engenheiros de dados a trazer com confiança mais dados e, portanto, mais valor para sua empresa. O Compartilhamento de Dados do Azure permite que você faça o compartilhamento de negócios para empresas de maneira controlada.

Neste workshop, você usará o Azure Data Factory (ADF) para ingerir dados do Banco de Dados SQL do Azure no Azure Data Lake Storage Gen2 (ADLS Gen2). Depois de colocar os dados no lago, você os transformará por meio de fluxos de dados de mapeamento, o serviço de transformação nativo do data factory e os afundará no Azure Synapse Analytics. Em seguida, você compartilhará a tabela com dados transformados junto com alguns dados adicionais usando o Compartilhamento de Dados do Azure.

Os dados usados neste laboratório são dados de táxi da cidade de Nova York. Para importá-lo para seu banco de dados no Banco de dados SQL, baixe o arquivo bacpac taxi-data. Selecione a opção Baixar arquivo raw no GitHub.

Pré-requisitos

  • Subscrição do Azure: se não tem uma subscrição do Azure, crie uma conta gratuita antes de começar.

  • Banco de Dados SQL do Azure: se você não tiver um Banco de Dados SQL do Azure, saiba como criar um Banco de Dados SQL.

  • Conta de armazenamento do Azure Data Lake Storage Gen2: se você não tiver uma conta de armazenamento do ADLS Gen2, saiba como criar uma conta de armazenamento do ADLS Gen2.

  • Azure Synapse Analytics: Se você não tiver um espaço de trabalho do Azure Synapse Analytics, saiba como começar a usar o Azure Synapse Analytics.

  • Azure Data Factory: se você não criou um data factory, veja como criar um data factory.

  • Partilha de Dados do Azure: se não tiver criado uma partilha de dados, veja como criar uma partilha de dados.

Configurar o ambiente do Azure Data Factory

Nesta seção, você aprenderá a acessar a experiência do usuário do Azure Data Factory (ADF UX) a partir do portal do Azure. Uma vez na UX do ADF, você configurará três serviços vinculados para cada um dos armazenamentos de dados que estamos usando: Banco de Dados SQL do Azure, ADLS Gen2 e Azure Synapse Analytics.

Nos serviços vinculados do Azure Data Factory, defina as informações de conexão com recursos externos. Atualmente, o Azure Data Factory suporta mais de 85 conectores.

Abra a experiência do usuário do Azure Data Factory

  1. Abra o portal do Azure no Microsoft Edge ou no Google Chrome.

  2. Usando a barra de pesquisa na parte superior da página, procure por "Data Factories".

  3. Selecione seu recurso de fábrica de dados para abrir seus recursos no painel esquerdo.

    Screenshot from the Azure portal of a data factories overview page.

  4. Selecione Abrir o Azure Data Factory Studio. O Data Factory Studio também pode ser acessado diretamente no adf.azure.com.

    Screenshot of the Azure Data Factory home page in the Azure portal.

  5. Você será redirecionado para a página inicial do ADF no portal do Azure. Esta página contém inícios rápidos, vídeos instrutivos e links para tutoriais para aprender conceitos de data factory. Para iniciar a criação, selecione o ícone de lápis na barra lateral esquerda.

    Screenshot from the Azure portal of Portal configure.

Criar um serviço ligado da Base de Dados SQL do Azure

  1. Para criar um serviço vinculado, selecione Gerenciar hub na barra lateral esquerda, no painel Conexões, selecione Serviços vinculados e selecione Novo para adicionar um novo serviço vinculado.

    Screenshot from the Azure portal of creating a new linked service.

  2. O primeiro serviço vinculado que você configura é um Banco de Dados SQL do Azure. Você pode usar a barra de pesquisa para filtrar a lista de armazenamento de dados. Selecione no bloco Banco de Dados SQL do Azure e selecione continuar.

    Screenshot from the Azure portal of creating a new Azure SQL Database linked service.

  3. No painel de configuração do Banco de dados SQL, digite 'SQLDB' como o nome do serviço vinculado. Insira suas credenciais para permitir que o data factory se conecte ao seu banco de dados. Se você estiver usando a autenticação SQL, insira o nome do servidor, o banco de dados, seu nome de usuário e senha. Você pode verificar se as informações de conexão estão corretas selecionando Testar conexão. Quando terminar, selecione Criar.

    Screenshot from the Azure portal of configuring a new Azure SQL Database linked service, with a successfully tested connection.

Criar um serviço vinculado do Azure Synapse Analytics

  1. Repita o mesmo processo para adicionar um serviço vinculado do Azure Synapse Analytics. Na guia conexões, selecione Novo. Selecione o bloco Azure Synapse Analytics e selecione continuar.

    Screenshot from the Azure portal of creating a new Azure Synapse Analytics linked service.

  2. No painel de configuração do serviço vinculado, digite 'SQLDW'' como o nome do serviço vinculado. Insira suas credenciais para permitir que o data factory se conecte ao seu banco de dados. Se você estiver usando a autenticação SQL, insira o nome do servidor, o banco de dados, seu nome de usuário e senha. Você pode verificar se as informações de conexão estão corretas selecionando Testar conexão. Quando terminar, selecione Criar.

    Screenshot from the Azure portal of configuring a new Azure Synapse Analytics linked service named SQLDW.

Criar um serviço vinculado do Azure Data Lake Storage Gen2

  1. O último serviço vinculado necessário para este laboratório é um Azure Data Lake Storage Gen2. Na guia conexões, selecione Novo. Selecione o bloco Azure Data Lake Storage Gen2 e selecione continuar.

    Screenshot from the Azure portal of creating a new ADLS Gen2 linked service.

  2. No painel de configuração do serviço vinculado, digite 'ADLSGen2' como o nome do serviço vinculado. Se você estiver usando a autenticação de chave de conta, selecione sua conta de armazenamento ADLS Gen2 na lista suspensa Nome da conta de armazenamento. Você pode verificar se as informações de conexão estão corretas selecionando Testar conexão. Quando terminar, selecione Criar.

    Screenshot from the Azure portal of configuring a new ADLS Gen2 linked service.

Ativar o modo de depuração de fluxo de dados

Na seção Transformar dados usando o fluxo de dados de mapeamento, você está criando fluxos de dados de mapeamento. Uma prática recomendada antes de criar fluxos de dados de mapeamento é ativar o modo de depuração, que permite testar a lógica de transformação em segundos em um cluster de faísca ativo.

Para ativar a depuração, selecione o controle deslizante Depuração de fluxo de dados na barra superior da tela de fluxo de dados ou tela de pipeline quando tiver atividades de fluxo de dados. Selecione OK quando a caixa de diálogo de confirmação for mostrada. O cluster arranca em cerca de 5 a 7 minutos. Continue para Ingerir dados do Banco de Dados SQL do Azure no ADLS Gen2 usando a atividade de cópia durante a inicialização.

Screenshot from the Azure portal of the Factory Resources pages, with the data flow debug button enabled.

Screenshot that shows where the Data flow debug slider is after an object is created.

Ingerir dados usando a atividade de cópia

Nesta seção, você cria um pipeline com uma atividade de cópia que ingere uma tabela de um Banco de Dados SQL do Azure em uma conta de armazenamento ADLS Gen2. Você aprende como adicionar um pipeline, configurar um conjunto de dados e depurar um pipeline por meio da UX do ADF. O padrão de configuração usado nesta seção pode ser aplicado à cópia de um armazenamento de dados relacional para um armazenamento de dados baseado em arquivo.

No Azure Data Factory, um pipeline é um agrupamento lógico de atividades que, juntas, executam uma tarefa. Uma atividade define uma operação a ser executada em seus dados. Um conjunto de dados aponta para os dados que você deseja usar em um serviço vinculado.

Criar um pipeline com uma atividade de cópia

  1. No painel de recursos de fábrica, selecione no ícone de adição para abrir o novo menu de recursos. Selecione Pipeline.

    Screenshot from the Azure portal of creating a new pipeline.

  2. Na guia Geral da tela do pipeline, nomeie seu pipeline como algo descritivo, como 'IngestAndTransformTaxiData'.

    Screenshot from the Azure portal of new Ingest and Transform Taxi data object.

  3. No painel de atividades da tela do pipeline, abra o acordeão Mover e Transformar e arraste a atividade Copiar dados para a tela. Dê à atividade de cópia um nome descritivo, como 'IngestIntoADLS'.

    Screenshot from the Azure portal of adding a copy data step.

Configurar o conjunto de dados de origem do Banco de Dados SQL do Azure

  1. Selecione na guia Origem da atividade de cópia. Para criar um novo conjunto de dados, selecione Novo. Sua fonte será a tabela dbo.TripData localizada no serviço vinculado 'SQLDB' configurado anteriormente.

    Screenshot from the Azure portal of creating a new dataset in the Copy Data source option.

  2. Procure o Banco de Dados SQL do Azure e selecione continuar.

    Screenshot from the Azure portal of creating a new dataset in Azure SQL Database.

  3. Chame seu conjunto de dados de 'TripData'. Selecione 'SQLDB' como seu serviço vinculado. Selecione o nome dbo.TripData da tabela na lista suspensa Nome da tabela. Importe o esquema Da conexão/armazenamento. Selecione OK quando terminar.

    Screenshot from the Azure portal of the properties page of creating a new dataset in Azure SQL Database.

Você criou com êxito seu conjunto de dados de origem. Verifique se nas configurações de origem, o valor padrão Tabela está selecionado no campo de consulta de uso.

Configurar o conjunto de dados do coletor ADLS Gen2

  1. Selecione na guia Coletor da atividade de cópia. Para criar um novo conjunto de dados, selecione Novo.

    Screenshot from the Azure portal of creating a new dataset in the Copy Data sink option.

  2. Procure o Azure Data Lake Storage Gen2 e selecione continuar.

    Screenshot from the Azure portal of creating a new data in ADLS Gen2.

  3. No painel de seleção de formato, selecione DelimitedText enquanto grava em um arquivo csv. Selecione continuar.

    Screenshot from the Azure portal of the format page when creating a new data in ADLS Gen2.

  4. Nomeie seu conjunto de dados de coletor como 'TripDataCSV'. Selecione 'ADLSGen2' como seu serviço vinculado. Digite onde você deseja escrever seu arquivo csv. Por exemplo, você pode gravar seus dados no arquivo trip-data.csv no contêiner staging-container. Defina Primeira linha como cabeçalho como true como você deseja que seus dados de saída tenham cabeçalhos. Como ainda não existe nenhum arquivo no destino, defina Importar esquema como Nenhum. Selecione OK quando terminar.

    Screenshot from the Azure portal of the properties page of creating a new data in ADLS Gen2.

Testar a atividade de cópia com uma execução de depuração de pipeline

  1. Para verificar se a atividade de cópia está funcionando corretamente, selecione Depurar na parte superior da tela do pipeline para executar uma execução de depuração . Uma execução de depuração permite que você teste seu pipeline de ponta a ponta ou até um ponto de interrupção antes de publicá-lo no serviço de data factory.

    Screenshot from the Azure portal of the debug button.

  2. Para monitorar sua execução de depuração, vá para a guia Saída da tela do pipeline. A tela de monitoramento é atualizada automaticamente a cada 20 segundos ou quando você seleciona manualmente o botão de atualização. A atividade de cópia tem uma visão de monitoramento especial, que pode ser acessada selecionando o ícone de óculos na coluna Ações .

    Screenshot from the Azure portal of the monitoring button.

  3. A visualização de monitoramento de cópia fornece os detalhes de execução da atividade e as características de desempenho. Você pode ver informações como dados lidos/gravados, linhas lidas/gravadas, arquivos lidos/gravados e taxa de transferência. Se você configurou tudo corretamente, verá 49.999 linhas gravadas em um arquivo no coletor ADLS.

    Screenshot from the Azure portal of the performance details of the copy monitoring view.

  4. Antes de passar para a próxima seção, é sugerido que você publique suas alterações no serviço de fábrica de dados selecionando Publicar tudo na barra superior de fábrica. Embora não seja abordado neste laboratório, o Azure Data Factory oferece suporte à integração total do git. A integração com o Git permite o controle de versão, o salvamento iterativo em um repositório e a colaboração em uma fábrica de dados. Para obter mais informações, consulte Controle do código-fonte no Azure Data Factory.

    Screenshot from the Azure portal of the publish all button.

Transformar dados com o fluxo de dados de mapeamento

Agora que você copiou com êxito os dados para o Armazenamento do Azure Data Lake, é hora de unir e agregar esses dados em um data warehouse. Usamos o fluxo de dados de mapeamento, o serviço de transformação projetado visualmente do Azure Data Factory. O mapeamento de fluxos de dados permite que os usuários desenvolvam lógica de transformação sem código e os executem em clusters de faísca gerenciados pelo serviço ADF.

O fluxo de dados criado nesta etapa interna une o conjunto de dados 'TripDataCSV' criado na seção anterior com uma tabela dbo.TripFares armazenada em 'SQLDB' com base em quatro colunas principais. Em seguida, os dados são agregados com base na coluna payment_type para calcular a média de determinados campos e escritos em uma tabela do Azure Synapse Analytics.

Adicionar uma atividade de fluxo de dados ao seu pipeline

  1. No painel de atividades da tela do pipeline, abra o acordeão Mover e Transformar e arraste a atividade Fluxo de dados para a tela.

    Screenshot from the Azure portal of the data flow option in the Move & Transform menu.

  2. No painel lateral que se abre, selecione Criar novo fluxo de dados e escolha Mapeando fluxo de dados. Selecione OK.

    Screenshot from the Azure portal of adding a new mapping data flow.

  3. Você é direcionado para a tela de fluxo de dados onde criará sua lógica de transformação. Na guia geral, nomeie seu fluxo de dados como 'JoinAndAggregateData'.

    Screenshot from the Azure portal of the Join And Aggregate Data flow.

Configurar a origem CSV dos dados da viagem

  1. A primeira coisa que você deseja fazer é configurar suas duas transformações de origem. A primeira fonte aponta para o conjunto de dados DelimitedText 'TripDataCSV'. Para adicionar uma transformação de origem, selecione na caixa Adicionar fonte na tela.

    Screenshot from the Azure portal of the add source button in a new data flow.

  2. Nomeie sua fonte como 'TripDataCSV' e selecione o conjunto de dados 'TripDataCSV' na lista suspensa de fontes. Se você se lembrar, não importou um esquema inicialmente ao criar esse conjunto de dados, pois não havia dados lá. Uma vez que trip-data.csv existe agora, selecione Editar para ir para a guia de configurações do conjunto de dados.

    Screenshot from the Azure portal of the edit source dataset button in the data flow options.

  3. Vá para a guia Esquema e selecione Importar esquema. Selecione Da conexão/armazenamento para importar diretamente do armazenamento de arquivos. 14 colunas do tipo string devem aparecer.

    Screenshot from the Azure portal of the schema source selection.

  4. Volte para o fluxo de dados 'JoinAndAggregateData'. Se o cluster de depuração tiver sido iniciado (indicado por um círculo verde ao lado do controle deslizante de depuração), você poderá obter um instantâneo dos dados na guia Visualização de dados . Selecione Atualizar para obter uma visualização de dados.

    Screenshot from the Azure portal of the data flow preview.

Nota

A visualização de dados não grava dados.

Configurar as tarifas da sua viagem Origem da Base de Dados SQL

  1. A segunda fonte que você está adicionando aponta na tabela dbo.TripFaresdo Banco de dados SQL. Na fonte "TripDataCSV", há outra caixa Adicionar fonte . Selecione-o para adicionar uma nova transformação de origem.

    Screenshot from the Azure portal of adding another data source to a data flow.

  2. Nomeie esta fonte como 'TripFaresSQL'. Selecione Novo ao lado do campo do conjunto de dados de origem para criar um novo conjunto de dados do Banco de dados SQL.

    Screenshot from the Azure portal of the new source dataset on another copy data step in the data flow.

  3. Selecione o bloco Banco de Dados SQL do Azure e selecione continuar. Você pode notar que muitos dos conectores no data factory não são suportados no mapeamento do fluxo de dados. Para transformar dados de uma dessas fontes, ingeri-los em uma fonte suportada usando a atividade de cópia.

    Screenshot from the Azure portal of adding a new Azure SQL Database dataset to the data flow.

  4. Chame seu conjunto de dados de 'TripFares'. Selecione 'SQLDB' como seu serviço vinculado. Selecione o nome dbo.TripFares da tabela na lista suspensa Nome da tabela. Importe o esquema Da conexão/armazenamento. Selecione OK quando terminar.

    Screenshot from the Azure portal of the properties of adding a new Azure SQL Database dataset to the data flow.

  5. Para verificar seus dados, busque uma visualização de dados na guia Visualização de dados .

    Screenshot from the Azure portal of the data preview of another data source in the data flow.

Junte-se ao TripDataCSV e ao TripFaresSQL

  1. Para adicionar uma nova transformação, selecione o ícone de adição no canto inferior direito de 'TripDataCSV'. Em Várias entradas/saídas, selecione Ingressar.

    Screenshot from the Azure portal of the join button in data sources in a data flow.

  2. Nomeie sua transformação de ingresso como 'InnerJoinWithTripFares'. Selecione 'TripFaresSQL' na lista suspensa à direita. Selecione Interno como o tipo de junção. Para saber mais sobre os diferentes tipos de junção no mapeamento do fluxo de dados, consulte Tipos de junção.

    Selecione as colunas que deseja corresponder em cada fluxo através da lista suspensa Condições de adesão . Para adicionar uma condição de associação adicional, selecione no ícone de adição ao lado de uma condição existente. Por padrão, todas as condições de junção são combinadas com um operador AND, o que significa que todas as condições devem ser atendidas para uma correspondência. Neste laboratório, queremos corresponder nas colunas medallion, , , hack_licensevendor_idepickup_datetime

    Screenshot from the Azure portal of data flow join settings.

  3. Verifique se você juntou com êxito 25 colunas junto com uma visualização de dados.

    Screenshot from the Azure portal of the data preview of a data flow with joined data sources.

Agregado por payment_type

  1. Depois de concluir a transformação de junção, adicione uma transformação agregada selecionando o ícone de adição ao lado de InnerJoinWithTripFares. Escolha Agregar em Modificador de esquema.

    Screenshot from the Azure portal of the new aggregate button.

  2. Nomeie sua transformação agregada como 'AggregateByPaymentType'. Selecione payment_type como o grupo por coluna.

    Screenshot from the Azure portal of aggregate settings.

  3. Vá para a guia Agregações. Especifique duas agregações :

    • A tarifa média agrupada por tipo de pagamento
    • A distância total da viagem agrupada por tipo de pagamento

    Primeiro, você criará a expressão de tarifa média. Na caixa de texto Adicionar ou selecionar uma coluna, digite 'average_fare'.

    Screenshot from the Azure portal of the Grouped by option in aggregate settings.

  4. Para inserir uma expressão de agregação, selecione a caixa azul chamada Enter expression, que abre o construtor de expressões de fluxo de dados, uma ferramenta usada para criar visualmente expressões de fluxo de dados usando esquema de entrada, funções e operações internas e parâmetros definidos pelo usuário. Para obter mais informações sobre os recursos do construtor de expressões, consulte a documentação do construtor de expressões.

    Para obter a tarifa média, use a função de agregação para agregar a avg()total_amount coluna convertida em um inteiro com toInteger(). Na linguagem de expressão de fluxo de dados, isso é definido como avg(toInteger(total_amount)). Selecione Salvar e concluir quando terminar.

    Screenshot from the Azure portal of the Visual Expression Builder showing an aggregate function avg(toInteger(total_amount)).

  5. Para adicionar uma expressão de agregação adicional, selecione no ícone de adição ao lado de average_fare. Selecione Adicionar coluna.

    Screenshot from the Azure portal of the add column button in the aggregate settings grouped by option.

  6. Na caixa de texto Adicionar ou selecionar uma coluna, digite 'total_trip_distance'. Como na última etapa, abra o construtor de expressões para entrar na expressão.

    Para obter a distância total da viagem, use a função de agregação para agregar a sum() coluna convertida trip_distance em um inteiro com toInteger(). Na linguagem de expressão de fluxo de dados, isso é definido como sum(toInteger(trip_distance)). Selecione Salvar e concluir quando terminar.

    Screenshot from the Azure portal of two columns in the aggregate settings grouped by option.

  7. Teste sua lógica de transformação na guia Visualização de dados . Como você pode ver, há significativamente menos linhas e colunas do que anteriormente. Apenas os três grupos por e colunas de agregação definidos nesta transformação continuam a jusante. Como há apenas cinco grupos de tipos de pagamento na amostra, apenas cinco linhas são produzidas.

    Screenshot from the Azure portal of aggregate data preview.

Configurar o coletor do Azure Synapse Analytics

  1. Agora que terminamos nossa lógica de transformação, estamos prontos para coletar nossos dados em uma tabela do Azure Synapse Analytics. Adicione uma transformação de coletor na seção Destino .

    Screenshot from the Azure portal of the add sink button in the data flow.

  2. Nomeie sua pia como 'SQLDWSink'. Selecione Novo ao lado do campo do conjunto de dados do coletor para criar um novo conjunto de dados do Azure Synapse Analytics.

    Screenshot from the Azure portal of a new sink dataset button in the sink settings.

  3. Selecione o bloco Azure Synapse Analytics e selecione continuar.

    Screenshot from the Azure portal of a new Azure Synapse Analytics dataset for a new data sink.

  4. Chame seu conjunto de dados de 'AggregatedTaxiData'. Selecione 'SQLDW' como seu serviço vinculado. Selecione Criar nova tabela e nomeie a nova tabeladbo.AggregateTaxiData. Selecione OK quando terminar.

    Screenshot from the Azure portal of creating a new table for the data sink.

  5. Vá para a guia Configurações do coletor. Como estamos criando uma nova tabela, precisamos selecionar Recriar tabela em ação de tabela . Desmarque Ativar preparo, que alterna se estamos inserindo linha por linha ou em lote.

    Screenshot from the Azure portal of data sink settings, the recreate table option.

Você criou com sucesso seu fluxo de dados. Agora é hora de executá-lo em uma atividade de pipeline.

Depurar seu pipeline de ponta a ponta

  1. Volte para a guia do pipeline IngestAndTransformData . Observe a caixa verde na atividade de cópia 'IngestIntoADLS'. Arraste-o para a atividade de fluxo de dados 'JoinAndAggregateData'. Isso cria um 'on success', que faz com que a atividade de fluxo de dados só seja executada se a cópia for bem-sucedida.

    Screenshot from the Azure portal of a green success pipeline.

  2. Como fizemos para a atividade de cópia, selecione Depurar para executar uma execução de depuração . Para execuções de depuração, a atividade de fluxo de dados usa o cluster de depuração ativo em vez de girar um novo cluster. Esse pipeline leva pouco mais de um minuto para ser executado.

    Screenshot from the Azure portal of the data flow debug button for the on success pipeline.

  3. Como a atividade de cópia, o fluxo de dados tem uma visão de monitoramento especial acessada pelo ícone de óculos na conclusão da atividade.

    Screenshot from the Azure portal of the output monitor on a pipeline.

  4. Na visualização de monitoramento, você pode ver um gráfico de fluxo de dados simplificado, juntamente com os tempos de execução e linhas em cada estágio de execução. Se feito corretamente, você deve ter agregado 49.999 linhas em cinco linhas nesta atividade.

    Screenshot from the Azure portal of the output monitor details on a pipeline.

  5. Você pode selecionar uma transformação para obter detalhes adicionais sobre sua execução, como informações de particionamento e colunas novas/atualizadas/descartadas.

    Screenshot from the Azure portal of stream information on the pipeline output monitor.

Agora você concluiu a parte de fábrica de dados deste laboratório. Publique seus recursos se desejar operacionalizá-los com gatilhos. Você executou com êxito um pipeline que ingeriu dados do Banco de Dados SQL do Azure para o Armazenamento do Azure Data Lake usando a atividade de cópia e, em seguida, agregou esses dados em um Azure Synapse Analytics. Você pode verificar se os dados foram gravados com êxito examinando o próprio SQL Server.

Partilhar dados com o Azure Data Share

Nesta seção, você aprenderá a configurar um novo compartilhamento de dados usando o portal do Azure. Isso envolve a criação de um novo compartilhamento de dados que contém conjuntos de dados do Azure Data Lake Storage Gen2 e do Azure Synapse Analytics. Em seguida, você configurará um agendamento de instantâneo, que dará aos consumidores de dados uma opção para atualizar automaticamente os dados que estão sendo compartilhados com eles. Em seguida, você convidará destinatários para seu compartilhamento de dados.

Depois de criar um compartilhamento de dados, você trocará de chapéu e se tornará o consumidor de dados. Como consumidor de dados, você percorrerá o fluxo de aceitação de um convite de compartilhamento de dados, configurando onde deseja que os dados sejam recebidos e mapeando conjuntos de dados para diferentes locais de armazenamento. Em seguida, você acionará um instantâneo, que copiará os dados compartilhados com você para o destino especificado.

Compartilhar dados (fluxo do provedor de dados)

  1. Abra o portal do Azure no Microsoft Edge ou no Google Chrome.

  2. Usando a barra de pesquisa na parte superior da página, pesquise por Compartilhamentos de Dados

    Screenshot from the Azure portal of searching for data shares in the Azure portal search bar.

  3. Selecione a conta de compartilhamento de dados com 'Provedor' no nome. Por exemplo, DataProvider0102.

  4. Selecione Começar a partilhar os seus dados

    Screenshot from the Azure portal of the start sharing your data button.

  5. Selecione +Criar para começar a configurar seu novo compartilhamento de dados.

  6. Em Nome do compartilhamento, especifique um nome de sua escolha. Este é o nome da partilha que será visto pelo seu consumidor de dados, por isso certifique-se de que lhe dá um nome descritivo, como TaxiData.

  7. Em Descrição, coloque uma frase, que descreve o conteúdo do compartilhamento de dados. O compartilhamento de dados contém dados de viagem de táxi em todo o mundo que são armazenados em uma variedade de lojas, incluindo o Azure Synapse Analytics e o Azure Data Lake Storage.

  8. Em Termos de utilização, especifique um conjunto de termos aos quais pretende que o consumidor de dados respeite. Alguns exemplos incluem "Não distribuir estes dados fora da sua organização" ou "Consulte o contrato legal".

    Screenshot from the Azure portal of the Data Share details in Sent Shares.

  9. Selecione Continuar.

  10. Selecione Adicionar conjuntos de dados

    Screenshot from the Azure portal of the Add dataset button in the Data Share in Sent Shares.

  11. Selecione Azure Synapse Analytics para selecionar uma tabela do Azure Synapse Analytics na qual suas transformações do ADF chegaram.

  12. Você recebe um script para ser executado antes de poder continuar. O script fornecido cria um usuário no banco de dados SQL para permitir que o MSI do Compartilhamento de Dados do Azure se autentique em seu nome.

    Importante

    Antes de executar o script, você deve se definir como o administrador do Ative Directory para o servidor SQL lógico do Banco de Dados SQL do Azure.

  13. Abra uma nova guia e navegue até o portal do Azure. Copie o script fornecido para criar um usuário no banco de dados do qual você deseja compartilhar dados. Faça isso entrando no banco de dados EDW usando o editor de Consultas do portal do Azure, usando a autenticação do Microsoft Entra. Você precisa modificar o usuário no seguinte script de exemplo:

    CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; 
    ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
    
  14. Volte para o Compartilhamento de Dados do Azure onde você estava adicionando conjuntos de dados ao seu compartilhamento de dados.

  15. Selecione EDW e, em seguida, selecione AggregatedTaxiData para a tabela.

  16. Selecione Adicionar conjunto de dados

    Agora temos uma tabela SQL que faz parte do nosso conjunto de dados. Em seguida, adicionaremos conjuntos de dados adicionais do Armazenamento do Azure Data Lake.

  17. Selecione Adicionar conjunto de dados e selecione Azure Data Lake Storage Gen2

    Screenshot from the Azure portal of add an ADLS Gen2 dataset.

  18. Selecione Seguinte

  19. Expanda wwtaxidata. Expanda os dados do Boston Taxi. Você pode compartilhar até o nível do arquivo.

  20. Selecione a pasta Boston Taxi Data para adicionar toda a pasta ao seu compartilhamento de dados.

  21. Selecione Adicionar conjuntos de dados

  22. Analise os conjuntos de dados que foram adicionados. Você deve ter uma tabela SQL e uma pasta ADLS Gen2 adicionadas ao seu compartilhamento de dados.

  23. Selecione Continuar

  24. Nesta tela, você pode adicionar destinatários ao seu compartilhamento de dados. Os destinatários que você adicionar receberão convites para seu compartilhamento de dados. Para este laboratório, você deve adicionar dois endereços de e-mail:

    1. O endereço de email da assinatura do Azure em que você está.

      Screenshot from the Azure portal of the Data Share add recipients.

    2. Adicione os dados fictícios do consumidor chamado janedoe@fabrikam.com.

  25. Nesta tela, você pode definir uma configuração de instantâneo para seu consumidor de dados. Isto permite-lhes receber atualizações regulares dos seus dados num intervalo definido por si.

  26. Verifique o Snapshot Schedule e configure uma atualização horária dos seus dados usando a lista suspensa Recorrência .

  27. Selecione Criar.

    Agora você tem um compartilhamento de dados ativo. Vamos analisar o que você pode ver como um provedor de dados ao criar um compartilhamento de dados.

  28. Selecione o compartilhamento de dados que você criou, intitulado DataProvider. Você pode navegar até ele selecionando Compartilhamentos enviados no compartilhamento de dados.

  29. Selecione em Agenda de instantâneo. Você pode desativar o agendamento de instantâneo, se desejar.

  30. Em seguida, selecione a guia Conjuntos de dados. Você pode adicionar conjuntos de dados adicionais a esse compartilhamento de dados depois que ele for criado.

  31. Selecione a guia Compartilhar assinaturas . Ainda não existem subscrições de partilha porque o consumidor de dados ainda não aceitou o convite.

  32. Navegue até a guia Convites . Aqui, você verá uma lista de convite(s) pendente(s).

    Screenshot from the Azure portal of Pending invitations.

  33. Selecione o convite para janedoe@fabrikam.com. Selecione Eliminar. Se o destinatário ainda não aceitou o convite, ele não poderá mais fazê-lo.

  34. Selecione a guia Histórico. Nada é exibido ainda porque seu consumidor de dados ainda não aceitou seu convite e acionou um instantâneo.

Receber dados (fluxo do consumidor de dados)

Agora que revisamos nosso compartilhamento de dados, estamos prontos para mudar de contexto e vestir nosso chapéu de consumidor de dados.

Agora você deve ter um convite de Compartilhamento de Dados do Azure em sua caixa de entrada do Microsoft Azure. Inicie o Outlook Web Access (outlook.com) e entre usando as credenciais fornecidas para sua assinatura do Azure.

No e-mail que deveria ter recebido, selecione "Ver convite >". Neste ponto, você estará simulando a experiência do consumidor de dados ao aceitar um convite de provedores de dados para seu compartilhamento de dados.

Screenshot from Outlook of an Email invitation.

Poderá ser-lhe pedido para selecionar uma subscrição. Certifique-se de selecionar a assinatura em que você está trabalhando para este laboratório.

  1. Selecione no convite intitulado DataProvider.

  2. Nesta tela Convite , observe vários detalhes sobre o compartilhamento de dados que você configurou anteriormente como um provedor de dados. Reveja os detalhes e aceite os termos de utilização, se fornecidos.

  3. Selecione o Grupo de Assinaturas e Recursos que já existe para seu laboratório.

  4. Em Conta de compartilhamento de dados, selecione DataConsumer. Você também pode criar uma nova conta de compartilhamento de dados.

  5. Ao lado de Nome do compartilhamento recebido, observe que o nome do compartilhamento padrão é o nome especificado pelo provedor de dados. Dê ao compartilhamento um nome amigável que descreva os dados que você está prestes a receber, por exemplo , TaxiDataShare.

    Screenshot from the Azure portal of the page to Accept and Configure a data share.

  6. Você pode optar por Aceitar e configurar agora ou Aceitar e configurar mais tarde. Se você optar por aceitar e configurar agora, especifique uma conta de armazenamento onde todos os dados devem ser copiados. Se você optar por aceitar e configurar mais tarde, os conjuntos de dados no compartilhamento não serão mapeados e você precisará mapeá-los manualmente. Optaremos por isso mais tarde.

  7. Selecione Aceitar e configurar mais tarde.

    Ao configurar essa opção, uma assinatura de compartilhamento é criada, mas não há nenhum lugar para os dados chegarem, pois nenhum destino foi mapeado.

    Em seguida, configure mapeamentos de conjunto de dados para o compartilhamento de dados.

  8. Selecione o Compartilhamento recebido (o nome especificado na etapa 5).

    O instantâneo do gatilho está acinzentado, mas o compartilhamento está Ativo.

  9. Selecione a guia Conjuntos de dados. Cada conjunto de dados é Unmapped, o que significa que ele não tem destino para copiar dados.

    Screenshot from the Azure portal of unmapped datasets.

  10. Selecione a Tabela do Azure Synapse Analytics e, em seguida, selecione + Mapear para o destino.

  11. No lado direito da tela, selecione a lista suspensa Tipo de dados de destino.

    Você pode mapear os dados SQL para uma ampla variedade de armazenamentos de dados. Nesse caso, estaremos mapeando para um Banco de Dados SQL do Azure.

    Screenshot from the Azure portal of map datasets to target.

    (Opcional) Selecione Azure Data Lake Storage Gen2 como o tipo de dados de destino.

    (Opcional) Selecione a conta de Subscrição, Grupo de Recursos e Armazenamento em que tem estado a trabalhar.

    (Opcional) Você pode optar por receber os dados em seu data lake no formato csv ou parquet.

  12. Ao lado de Tipo de dados de destino, selecione Banco de Dados SQL do Azure.

  13. Selecione a conta de Subscrição, Grupo de Recursos e Armazenamento em que tem estado a trabalhar.

    Screenshot from the Azure portal of map datasets to a target Azure SQL Database.

  14. Antes de continuar, você precisará criar um novo usuário no SQL Server executando o script fornecido. Primeiro, copie o script fornecido para a área de transferência.

  15. Abra uma nova guia do portal do Azure. Não feche a guia existente, pois você precisará voltar a ela em um momento.

  16. Na nova guia aberta, navegue até bancos de dados SQL.

  17. Selecione o banco de dados SQL (deve haver apenas um em sua assinatura). Tenha cuidado para não selecionar o armazém de dados.

  18. Selecione Editor de consultas (visualização)

  19. Use a autenticação do Microsoft Entra para entrar no editor de consultas.

  20. Execute a consulta fornecida em seu compartilhamento de dados (copiada para a área de transferência na etapa 14).

    Este comando permite que o serviço de Compartilhamento de Dados do Azure use Identidades Gerenciadas para Serviços do Azure para autenticar no SQL Server para poder copiar dados para ele.

  21. Volte para a guia original e selecione Mapa para destino.

  22. Em seguida, selecione a pasta Azure Data Lake Storage Gen2 que faz parte do conjunto de dados e mapeie-a para uma conta de Armazenamento de Blob do Azure.

    Screenshot from the Azure portal of map datasets to a target Azure Blob Storage.

    Com todos os conjuntos de dados mapeados, você está pronto para começar a receber dados do provedor de dados.

    Screenshot from the Azure portal of received shares mapped.

  23. Selecione Detalhes.

    O instantâneo de gatilho não está mais acinzentado, já que o compartilhamento de dados agora tem destinos para copiar.

  24. Selecione Trigger snapshot ->Full copy.

    Screenshot from the Azure portal of the trigger snapshot, full copy option.

    Isso começa a copiar dados para sua nova conta de compartilhamento de dados. Em um cenário do mundo real, esses dados seriam provenientes de terceiros.

    Demora aproximadamente 3-5 minutos para os dados chegarem. Você pode monitorar o progresso selecionando na guia Histórico .

    Enquanto espera, navegue até o compartilhamento de dados original (DataProvider) e exiba o status da guia Compartilhar assinaturas e histórico . Agora há uma assinatura ativa e, como provedor de dados, você também pode monitorar quando o consumidor de dados começou a receber os dados compartilhados com ele.

  25. Navegue de volta para o compartilhamento de dados do consumidor de dados. Quando o status do gatilho for bem-sucedido, navegue até o banco de dados SQL e o data lake de destino para ver se os dados chegaram aos respetivos armazenamentos.

Parabéns, você concluiu o laboratório!