Integração de dados usando o Azure Data Factory e o Azure Data Share

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

À medida que os clientes embarcam em seus projetos modernos de data warehouse e de análise, eles precisam não só de mais dados, como também de mais visibilidade sobre seus dados em todo o acervo de dados deles. Este workshop se aprofunda em como os aprimoramentos do Azure Data Factory e do Azure Data Share simplificam a integração e o gerenciamento de dados no Azure.

Desde a habilitação do ETL/ELT sem código até a criação de uma exibição abrangente sobre seus dados, os aprimoramentos no Azure Data Factory capacitarão seus engenheiros de dados a introduzir mais dados com segurança e, portanto, mais valor, à sua empresa. O Azure Data Share permite que você faça compartilhamento entre empresas de uma maneira controlada.

Neste workshop, você usará o ADF (Azure Data Factory) para ingerir dados do Banco de Dados SQL do Azure no ADLS Gen2 (Azure Data Lake Storage Gen2). Após colocar os dados no lake, você os transformará por meio de fluxos de dados de mapeamento e do serviço de transformação nativo do data factory e os introduzirá no Azure Synapse Analytics. Em seguida, você compartilhará a tabela com os dados transformados junto com alguns dados adicionais usando o Azure Data Share.

Os dados usados nesse laboratório são os dados de táxi da cidade de Nova York. Para importá-los em seu banco de dados no Banco de Dados SQL, baixe o arquivo taxi-data bacpac. Selecione a opção Baixar arquivo bruto no GitHub.

Pré-requisitos

Configurar seu ambiente do Azure Data Factory

Nesta seção, você aprenderá a acessar a ADF UX (experiência de usuário do Azure Data Factory) no portal do Azure. Quando estiver na ADF UX, você configurará três serviços vinculados para cada um dos armazenamentos de dados que estamos usando: Banco de Dados SQL do Azure, ADLS Gen2 e Azure Synapse Analytics.

Nos serviços vinculados do Azure Data Factory, defina as informações de conexão como recursos externos. No momento, o Azure Data Factory é compatível com mais de 85 conectores.

Abrir a UX do Azure Data Factory

  1. Abra o portal do Azure no Microsoft Edge ou no Google Chrome.

  2. Usando a barra de pesquisa na parte superior da página, pesquise "Data Factories".

  3. Selecione o recurso do data factory para abrir seus recursos no painel esquerdo.

    Screenshot from the Azure portal of a data factories overview page.

  4. Selecione Abrir o Estúdio do Azure Data Factory. O Estúdio do Data Factory também pode ser acessado diretamente em adf.azure.com.

    Screenshot of the Azure Data Factory home page in the Azure portal.

  5. Você é redirecionado para a página inicial do ADF no portal do Azure. Essa página contém inícios rápidos, vídeos instrutivos e links para tutoriais para aprender conceitos de data factory. Para começar a criação, selecione no ícone de lápis na barra lateral esquerda.

    Screenshot from the Azure portal of Portal configure.

Criar um serviço vinculado do Banco de Dados SQL do Azure

  1. Para criar um serviço vinculado, selecione o hub Gerenciar na barra lateral esquerda, no painel Conexões, selecione Serviços vinculados e escolha Novo para adicionar um novo serviço vinculado.

    Screenshot from the Azure portal of creating a new linked service.

  2. O primeiro serviço vinculado que você configurará é um Banco de Dados SQL do Azure. Você pode usar a barra de pesquisa para filtrar a lista de armazenamento de dados. Selecione o bloco Banco de Dados SQL do Azure e selecione continuar.

    Screenshot from the Azure portal of creating a new Azure SQL Database linked service.

  3. No painel de configuração do Banco de Dados SQL, insira "SQLDB" como o nome do serviço vinculado. Insira suas credenciais para permitir que o data factory se conecte ao seu banco de dados. Se estiver usando a autenticação SQL, insira o nome do servidor, o banco de dados, o nome de usuário e a senha. Verifique se as informações de conexão estão corretas selecionando o Testar conexão. Selecione Criar quando terminar.

    Screenshot from the Azure portal of configuring a new Azure SQL Database linked service, with a successfully tested connection.

Criar um serviço vinculado do Azure Synapse Analytics

  1. Repita o mesmo processo para adicionar um serviço vinculado do Azure Synapse Analytics. Na guia conexões, selecione Novo. Selecione o bloco do Azure Synapse Analytics e selecione Continuar.

    Screenshot from the Azure portal of creating a new Azure Synapse Analytics linked service.

  2. No painel de configuração do serviço vinculado, insira "SQLDW" como o nome do serviço vinculado. Insira suas credenciais para permitir que o data factory se conecte ao seu banco de dados. Se estiver usando a autenticação SQL, insira o nome do servidor, o banco de dados, o nome de usuário e a senha. Verifique se as informações de conexão estão corretas selecionando o Testar conexão. Selecione Criar quando terminar.

    Screenshot from the Azure portal of configuring a new Azure Synapse Analytics linked service named SQLDW.

Criar um serviço vinculado do Azure Data Lake Storage Gen2

  1. O último serviço vinculado necessário para este laboratório é um Azure Data Lake Storage Gen2. Na guia conexões, selecione Novo. Selecione o bloco Azure Data Lake Storage Gen2 e selecione Continuar.

    Screenshot from the Azure portal of creating a new ADLS Gen2 linked service.

  2. No painel de configuração do serviço vinculado, insira "ADLSGen2" como o nome do serviço vinculado. Se estiver usando a autenticação da chave de conta, selecione a conta de armazenamento do ADLS Gen2 da lista de seleção Nome da conta de armazenamento. Verifique se as informações de conexão estão corretas selecionando o Testar conexão. Selecione Criar quando terminar.

    Screenshot from the Azure portal of configuring a new ADLS Gen2 linked service.

Ativar modo de depuração do fluxo de dados

Na seção Transformar dados usando o fluxo de dados de mapeamento, você está criando fluxos de dados de mapeamento. Uma melhor prática antes de criar fluxos de dados de mapeamento é ativar o modo de depuração, o que permite testar a lógica de transformação em segundos em um cluster do spark ativo.

Para ativar a depuração, selecione o controle deslizante de Depuração de fluxo de dados na barra superior do painel da tela do fluxo de dados ou do pipeline quando tiver atividades de Fluxo de dados. Selecione OK quando a caixa de diálogo de confirmação for exibida. O cluster é iniciado em cerca de 5 a 7 minutos. Prossiga para Ingerir dados do Banco de Dados SQL do Azure para o ADLS Gen2 usando a atividade de cópia enquanto ele está inicializando.

Screenshot from the Azure portal of the Factory Resources pages, with the data flow debug button enabled.

Screenshot that shows where the Data flow debug slider is after an object is created.

Ingerir dados usando a atividade de cópia

Nesta seção, você criará um pipeline com uma atividade de cópia que ingere uma tabela de um Banco de Dados SQL do Azure para uma conta de armazenamento do ADLS Gen2. Você aprenderá a adicionar um pipeline, configurar um conjunto de dados e depurar um pipeline por meio da UX do ADF. O padrão de configuração usado nesta seção pode ser aplicado à cópia de um armazenamento de dados relacional para um armazenamento de dados baseado em arquivo.

No Azure Data Factory, um pipeline é um agrupamento lógico de atividades que juntas executam uma tarefa. Uma atividade define uma operação a ser executada em seus dados. Um conjunto de dados aponta para os dados que você deseja usar em um serviço vinculado.

Criar um pipeline com uma atividade de cópia

  1. No painel recursos de fábrica, selecione o ícone de adição para abrir o novo menu de recurso. Selecione Pipeline.

    Screenshot from the Azure portal of creating a new pipeline.

  2. Na guia Geral da tela do pipeline, dê ao pipeline um nome descritivo como "IngestAndTransformTaxiData".

    Screenshot from the Azure portal of new Ingest and Transform Taxi data object.

  3. No painel de atividades da tela do pipeline, abra a seção Mover e Transformar e arraste a atividade Copiar dados para a tela. Dê à atividade de cópia um nome descritivo como "IngestIntoADLS".

    Screenshot from the Azure portal of adding a copy data step.

Configurar o conjunto de dados de origem do BD SQL do Azure

  1. Selecione a guia Origem da atividade de cópia. Para criar um novo conjunto de dados, selecione Novo. Sua origem será a tabela dbo.TripData localizada no serviço vinculado "SQLDB" configurado anteriormente.

    Screenshot from the Azure portal of creating a new dataset in the Copy Data source option.

  2. Pesquise por Banco de Dados SQL do Azure e selecione Continuar.

    Screenshot from the Azure portal of creating a new dataset in Azure SQL Database.

  3. Chame seu conjunto de dados de "TripData". Selecione "SQLDB" como seu serviço vinculado. Selecione o nome da tabela dbo.TripData na lista de suspensão do nome da tabela. Importe o esquema Da conexão/do repositório. Selecione OK quando terminar.

    Screenshot from the Azure portal of the properties page of creating a new dataset in Azure SQL Database.

Você criou com êxito o conjunto de dados de origem. Verifique se, nas configurações de origem, o valor padrão Tabela foi selecionado no campo de consulta de uso.

Configurar conjunto de dados do coletor do ADLS Gen2

  1. Selecione a guia Coletor da atividade de cópia. Para criar um novo conjunto de dados, selecione Novo.

    Screenshot from the Azure portal of creating a new dataset in the Copy Data sink option.

  2. Pesquise por Azure Data Lake Storage Gen2 e selecione Continuar.

    Screenshot from the Azure portal of creating a new data in ADLS Gen2.

  3. No painel de formato selecionado, selecione DelimitedText enquanto você está escrevendo em um arquivo csv. Selecione continuar.

    Screenshot from the Azure portal of the format page when creating a new data in ADLS Gen2.

  4. Dê ao conjunto de dados de coletor o nome "TripDataCSV". Selecione "ADLSGen2" como seu serviço vinculado. Insira onde você deseja gravar seu arquivo csv. Por exemplo, você pode gravar seus dados no arquivo trip-data.csv no contêiner staging-container. Defina Primeira linha como cabeçalho como true porque convém que seus dados de saída tenham cabeçalhos. Como ainda não existe um arquivo no destino, defina Importar esquema como Nenhum. Selecione OK quando terminar.

    Screenshot from the Azure portal of the properties page of creating a new data in ADLS Gen2.

Testar a atividade de cópia com uma execução de depuração de pipeline

  1. Para verificar se sua atividade de cópia está funcionando corretamente, selecione Depurar na parte superior da tela do pipeline para executar uma execução de depuração. Uma execução de depuração permite que você teste seu pipeline de ponta a ponta ou até um ponto de interrupção antes de publicá-lo no serviço de data factory.

    Screenshot from the Azure portal of the debug button.

  2. Para monitorar a execução de depuração, acesse a guia Saída da tela do pipeline. A tela de monitoramento atualiza automaticamente a cada 20 segundos ou ao selecionar manualmente no botão atualizar. A atividade de cópia tem uma exibição de monitoramento especial, que você pode acessar selecionando o ícone de óculos na coluna Ações.

    Screenshot from the Azure portal of the monitoring button.

  3. A exibição de monitoramento da cópia fornece os detalhes de execução e as características de desempenho da atividade. Você pode ver informações como os dados lidos/gravados, linhas lidas/gravadas, arquivos lidos/gravados e a taxa de transferência. Se você configurou tudo corretamente, deverá ver 49.999 linhas gravadas em um arquivo em seu coletor do ADLS.

    Screenshot from the Azure portal of the performance details of the copy monitoring view.

  4. Antes de passar para a próxima seção, sugerimos que você publique suas alterações no serviço do data factory selecionando Publicar tudo na barra superior do alocador. Embora não seja abordado neste laboratório, o Azure Data Factory dá suporte à integração completa do git. A integração do Git permite o controle de versão, o salvamento iterativo em um repositório e a colaboração em um data factory. Para obter mais informações, confira controle do código-fonte no Azure Data Factory.

    Screenshot from the Azure portal of the publish all button.

Transformar dados usando o fluxo de dados de mapeamento

Agora que você copiou com êxito os dados para o Azure Data Lake Storage, é hora de ingressar e agregar esses dados em um data warehouse. Usamos o fluxo de dados de mapeamento, o serviço de transformação projetado visualmente do Azure Data Factory. Os fluxos de dados de mapeamento permitem que os usuários desenvolvam uma lógica de transformação sem código e execute-a em clusters do spark gerenciados pelo serviço do ADF.

O fluxo de dados criado nesta etapa interna ingressa o conjunto de dados "TripDataCSV" criado na seção anterior com uma tabela dbo.TripFares armazenada no "SQLDB" baseado em quatro colunas principais. Em seguida, os dados são agregados com base na coluna payment_type para calcular a média de determinados campos e escritos em uma tabela do Azure Synapse Analytics.

Adicionar uma atividade de fluxo de dados ao seu pipeline

  1. No painel de atividades da tela do pipeline, abra a seção Mover e Transformar e arraste a atividade Fluxo de dados para a tela.

    Screenshot from the Azure portal of the data flow option in the Move & Transform menu.

  2. No painel lateral que é aberto, selecione Criar fluxo de dados e escolha Fluxo de dados de mapeamento. Selecione OK.

    Screenshot from the Azure portal of adding a new mapping data flow.

  3. Você é direcionado para a tela do fluxo de dados em que você criará sua lógica de transformação. Na guia geral, dê ao fluxo de dados o nome "JoinAndAggregateData".

    Screenshot from the Azure portal of the Join And Aggregate Data flow.

Configurar sua origem de CSV de dados de viagem

  1. A primeira coisa que convém fazer é configurar suas duas transformações de origem. A primeira fonte aponta para o conjunto de dados DelimitedText de "TripDataCSV". Para adicionar uma transformação de origem, selecione na caixa Adicionar origem no painel da tela.

    Screenshot from the Azure portal of the add source button in a new data flow.

  2. Nomeie a sua fonte "TripDataCSV" e selecione o conjunto de dados "TripDataCSV" na lista de seleção de origem. Se você se lembra, você não importou um esquema inicialmente ao criar esse conjunto de dados, pois não havia nenhum dado lá. Como trip-data.csv agora existe, selecione Editar para ir para a guia Configurações do conjunto de dados.

    Screenshot from the Azure portal of the edit source dataset button in the data flow options.

  3. Acesse a guia Esquema e selecione Importar esquema. Selecione Da conexão/armazenamento para importar diretamente do armazenamento de arquivos. 14 colunas do tipo cadeia de caracteres devem aparecer.

    Screenshot from the Azure portal of the schema source selection.

  4. Volte para o fluxo de dados "JoinAndAggregateData". Se o cluster de depuração tiver iniciado (indicado por um círculo verde ao lado do controle deslizante de depuração), você poderá obter um instantâneo dos dados na guia Visualização de Dados. Selecione Atualizar para buscar uma visualização de dados.

    Screenshot from the Azure portal of the data flow preview.

Observação

A visualização de dados não grava dados.

Configurar a origem do Banco de Dados SQL de tarifas de viagem

  1. A segunda origem que você está adicionando pontos na tabela Banco de Dados SQL dbo.TripFares. Na fonte "TripDataCSV", haverá outra caixa Adicionar Origem. Selecione ela para adicionar uma nova transformação de origem.

    Screenshot from the Azure portal of adding another data source to a data flow.

  2. Dê a esta origem o nome "TripFaresSQL". Selecione Novo ao lado do campo do conjunto de dados de origem para criar um conjunto de dados do Banco de Dados SQL.

    Screenshot from the Azure portal of the new source dataset on another copy data step in the data flow.

  3. Selecione o bloco Banco de Dados SQL do Azure e selecione Continuar. Você pode observar que não há suporte para muitos conectores no data factory no fluxo de dados de mapeamento. Para transformar dados de uma dessas origens, ingira-os em uma origem com suporte usando a atividade de cópia.

    Screenshot from the Azure portal of adding a new Azure SQL Database dataset to the data flow.

  4. Chame seu conjunto de dados de "TripFares". Selecione "SQLDB" como seu serviço vinculado. Selecione o nome da tabela dbo.TripFares na lista de suspensão do nome da tabela. Importe o esquema Da conexão/do repositório. Selecione OK quando terminar.

    Screenshot from the Azure portal of the properties of adding a new Azure SQL Database dataset to the data flow.

  5. Para verificar seus dados, busque uma visualização de dados na guia Visualização de Dados.

    Screenshot from the Azure portal of the data preview of another data source in the data flow.

TripDataCSV e TripFaresSQL da junção interna

  1. Para adicionar uma nova transformação, selecione o ícone de adição no canto inferior direito de "TripDataCSV". Em Várias entradas/saídas, selecione Junção.

    Screenshot from the Azure portal of the join button in data sources in a data flow.

  2. Dê à sua transformação de junção o nome "InnerJoinWithTripFares". Selecione "TripFaresSQL" na lista de seleção do fluxo direito. Selecione Interno como o tipo de junção. Para saber mais sobre os diferentes tipos de junção no fluxo de dados de mapeamento, confira tipos de junção.

    Selecione quais colunas você deseja corresponder de cada fluxo por meio da lista de seleção Condições de junção. Para adicionar uma condição de junção adicional, selecione o ícone de adição ao lado de uma condição existente. Por padrão, todas as condições de junção são combinadas com um operador AND, o que significa que todas as condições precisam ser atendidas para obter uma correspondência. Neste laboratório, desejamos corresponder às colunas medallion, hack_license, vendor_id e pickup_datetime

    Screenshot from the Azure portal of data flow join settings.

  3. Verifique se você ingressou 25 colunas com êxito com uma visualização de dados.

    Screenshot from the Azure portal of the data preview of a data flow with joined data sources.

Agregar por payment_type

  1. Depois de concluir a transformação de junção, adicione uma transformação de agregação selecionando o ícone de adição ao lado de InnerJoinWithTripFares. Escolha Agregação em Modificador de esquema.

    Screenshot from the Azure portal of the new aggregate button.

  2. Dê à sua transformação de agregação o nome "AggregateByPaymentType". Selecione payment_type como a coluna agrupar por.

    Screenshot from the Azure portal of aggregate settings.

  3. Vá para a guia Agregações. Especifique duas agregações:

    • A tarifa média agrupada por tipo de pagamento
    • A distância total da viagem agrupada por tipo de pagamento

    Primeiro, você criará a expressão de tarifa média. Na caixa de texto rotulada Adicionar ou selecionar uma coluna, insira "average_fare".

    Screenshot from the Azure portal of the Grouped by option in aggregate settings.

  4. Para inserir uma expressão de agregação, selecione a caixa azul rotulada Inserir expressão, que abre o construtor de expressões de fluxo de dados, uma ferramenta usada para criar visualmente expressões de fluxo de dados usando o esquema de entrada, funções e operações internas e parâmetros definidos pelo usuário. Para saber mais sobre as funcionalidades do Construtor de Expressões, confira a documentação do Construtor de Expressões.

    Para obter a tarifa média, use a função de agregação avg() para agregar a conversão da coluna total_amount em um inteiro com toInteger(). Na linguagem de expressão do fluxo de dados, isso é definido como avg(toInteger(total_amount)). Selecione Salvar e concluir quando terminar.

    Screenshot from the Azure portal of the Visual Expression Builder showing an aggregate function avg(toInteger(total_amount)).

  5. Para adicionar mais uma expressão de agregação, selecione no ícone de adição ao lado de average_fare. Selecione Adicionar coluna.

    Screenshot from the Azure portal of the add column button in the aggregate settings grouped by option.

  6. Na caixa de texto rotulada Adicionar ou selecionar uma coluna, insira "total_trip_distance". Assim como na última etapa, abra o Construtor de Expressões para inserir a expressão.

    Para obter a distância total da viagem, use a função de agregação sum() para agregar a conversão da coluna trip_distance em um inteiro com toInteger(). Na linguagem de expressão do fluxo de dados, isso é definido como sum(toInteger(trip_distance)). Selecione Salvar e concluir quando terminar.

    Screenshot from the Azure portal of two columns in the aggregate settings grouped by option.

  7. Teste a lógica de transformação na guia Visualização de Dados. Como você pode ver, há significativamente menos linhas e colunas do que antes. Apenas as três colunas agrupar por e agregação definidas nessa transformação continuam downstream. Como há apenas cinco grupos de tipo de pagamento no exemplo, apenas cinco linhas são emitidas.

    Screenshot from the Azure portal of aggregate data preview.

Configurar seu coletor do Azure Synapse Analytics

  1. Agora que concluímos nossa lógica de transformação, estamos prontos para coletar nossos dados em uma tabela do Azure Synapse Analytics. Adicione uma transformação de coletor na seção Destino.

    Screenshot from the Azure portal of the add sink button in the data flow.

  2. Dê ao seu coletor o nome "SQLDWSink". SelecioneNovo ao lado do campo do conjunto de dados do coletor para criar um conjunto de dados do Azure Synapse Analytics.

    Screenshot from the Azure portal of a new sink dataset button in the sink settings.

  3. Selecione o bloco do Azure Synapse Analytics e selecione Continuar.

    Screenshot from the Azure portal of a new Azure Synapse Analytics dataset for a new data sink.

  4. Chame o conjunto de dados de "AggregatedTaxiData". Selecione "SQLDW" como seu serviço vinculado. Selecione Criar nova tabela e nomeie-a dbo.AggregateTaxiData. Selecione OK ao concluir.

    Screenshot from the Azure portal of creating a new table for the data sink.

  5. Acesse a guia Configurações do coletor. Como estamos criando uma tabela, precisamos selecionar Recriar tabela em ação de tabela. Desmarque Habilitar preparo, que alternará se estivermos inserindo linha por linha ou em lote.

    Screenshot from the Azure portal of data sink settings, the recreate table option.

Você criou seu fluxo de dados com êxito. Agora é hora de executá-lo em uma atividade de pipeline.

Depurar o pipeline de ponta a ponta

  1. Volte para a guia do pipeline IngestAndTransformData. Observe a caixa verde na atividade de cópia "IngestIntoADLS". Arraste-a para a atividade de fluxo de dados "JoinAndAggregateData". Isso cria um "em caso de êxito", o que fará a atividade de fluxo de dados ser executada apenas se a cópia tiver êxito.

    Screenshot from the Azure portal of a green success pipeline.

  2. Como fizemos para a atividade de cópia, selecione Depurar para executar uma execução de depuração. Para execuções de depuração, a atividade de fluxo de dados usa o cluster de depuração ativo em vez de criar um. Esse pipeline leva pouco mais de um minuto para ser executado.

    Screenshot from the Azure portal of the data flow debug button for the on success pipeline.

  3. Assim como a atividade de cópia, o fluxo de dados tem uma exibição de monitoramento especial acessada pelo ícone de óculos após a conclusão da atividade.

    Screenshot from the Azure portal of the output monitor on a pipeline.

  4. Na exibição de monitoramento, você pode ver um grafo de fluxo de dados simplificado juntamente com os tempos de execução e as linhas em cada estágio de execução. Se for feito corretamente, você deverá ter 49.999 linhas agregadas em cinco linhas nessa atividade.

    Screenshot from the Azure portal of the output monitor details on a pipeline.

  5. Selecione uma transformação para obter detalhes adicionais sobre sua execução, como informações sobre particionamento e colunas novas/atualizadas/removidas.

    Screenshot from the Azure portal of stream information on the pipeline output monitor.

Agora você concluiu a parte do data factory deste laboratório. Publique seus recursos se desejar operacionalizá-los com gatilhos. Você executou com êxito um pipeline que ingeriu dados do Banco de Dados SQL do Azure para o Azure Data Lake Storage usando a atividade de cópia e, em seguida, agregou esses dados em um Azure Synapse Analytics. Você pode verificar se os dados foram gravados com êxito examinando o SQL Server em si.

Compartilhar dados usando o Azure Data Share

Nesta seção, você aprenderá a configurar um novo compartilhamento de dados usando o portal do Azure. Isso envolve a criação de um compartilhamento de dados que contém conjuntos de dados do Azure Data Lake Storage Gen2 e do Azure Synapse Analytics. Em seguida, você configurará um agendamento de instantâneo, que fornecerá aos consumidores de dados uma opção para atualizar automaticamente os dados que estão sendo compartilhados com eles. Em seguida, você convidará os destinatários para seu compartilhamento de dados.

Após criar um compartilhamento de dados, você trocará de lugar e se tornará o consumidor de dados. Como consumidor de dados, você percorrerá o fluxo de aceitação de um convite do compartilhamento de dados, da configuração de onde você deseja que os dados fossem recebidos e do mapeamento de conjuntos de dados para diferentes locais de armazenamento. Em seguida, você disparará um instantâneo, que copiará os dados compartilhados com você para o destino especificado.

Compartilhar dados (fluxo de Provedor de Dados)

  1. Abra o portal do Azure no Microsoft Edge ou no Google Chrome.

  2. Usando a barra de pesquisa na parte superior da página, pesquise Compartilhamentos de Dados

    Screenshot from the Azure portal of searching for data shares in the Azure portal search bar.

  3. Selecione a conta do compartilhamento de dados com "Provedor" no nome. Por exemplo, DataProvider0102.

  4. Selecione Começar a compartilhar seus dados

    Screenshot from the Azure portal of the start sharing your data button.

  5. Selecione +Criar para começar a configurar seu novo compartilhamento de dados.

  6. Em Nome do compartilhamento, especifique um nome de sua escolha. Esse é o nome do compartilhamento que será visto por seu consumidor de dados. Portanto, dê a ele um nome descritivo como TaxiData.

  7. Em Descrição, insira uma frase que descreva o conteúdo do compartilhamento de dados. O compartilhamento de dados contém dados de corridas de táxi de todo o mundo armazenados em uma variedade de repositórios, incluindo o Azure Synapse Analytics e o Azure Data Lake Storage.

  8. Em Termos de uso, especifique um conjunto de termos que você gostaria que seu consumidor de dados obedecesse. Alguns exemplos incluem "Não distribua esses dados fora de sua organização" ou "Veja o contrato legal".

    Screenshot from the Azure portal of the Data Share details in Sent Shares.

  9. Selecione Continuar.

  10. Selecione Adicionar conjuntos de dados

    Screenshot from the Azure portal of the Add dataset button in the Data Share in Sent Shares.

  11. Selecione Azure Synapse Analytics para selecionar uma tabela do Azure Synapse Analytics na qual suas transformações do ADF foram descarregadas.

  12. Você recebe um script para executar antes de poder continuar. O script fornecido cria um usuário no Banco de Dados SQL para permitir que o MSI do Azure Data Share seja autenticado em seu nome.

    Importante

    Antes de executar o script, você deve se definir como o Administrador do Active Directory para o servidor do SQL lógico do Banco de Dados SQL do Azure.

  13. Abra uma nova guia e navegue até o portal do Azure. Copie o script fornecido para criar um usuário no banco de dados do qual você deseja compartilhar os dados. Faça isso entrando no banco de dados EDW usando o Editor de consultas do portal do Azureusando a autenticação do Microsoft Entra. Você precisa modificar o usuário no seguinte script de exemplo:

    CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; 
    ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
    
  14. Volte para o Azure Data Share em que você estava adicionando conjunto de dados ao seu compartilhamento de dados.

  15. Selecione EDW e, em seguida, AggregatedTaxiData para a tabela.

  16. Selecione Adicionar conjunto de dados

    Agora temos uma tabela SQL que faz parte do nosso conjunto de dados. Em seguida, adicionaremos mais conjuntos de dados do Azure Data Lake Storage.

  17. Selecione Adicionar conjunto de dados e Azure Data Lake Storage Gen2

    Screenshot from the Azure portal of add an ADLS Gen2 dataset.

  18. Selecione Avançar

  19. Expanda wwtaxidata. Expanda Dados de Táxi de Boston. Você pode compartilhar até o nível do arquivo.

  20. Selecione a pasta Dados de Táxi de Boston para adicionar a pasta inteira ao seu compartilhamento de dados.

  21. Selecione Adicionar conjuntos de dados

  22. Examine os conjuntos de dados que foram adicionados. Você deve ter uma tabela SQL e uma pasta ADLS Gen2 adicionadas ao seu compartilhamento de dados.

  23. Selecione Continuar

  24. Nessa tela, você pode adicionar destinatários ao seu compartilhamento de dados. Os destinatários adicionados receberão convites para o seu compartilhamento de dados. Para fins deste laboratório, você deve adicionar dois endereços de email:

    1. o endereço de email da assinatura do Azure em que você está.

      Screenshot from the Azure portal of the Data Share add recipients.

    2. Adicione o consumidor de dados fictício denominado janedoe@fabrikam.com .

  25. Nessa tela, você pode definir uma Configuração de Instantâneo para o consumidor de dados. Isso permite que eles recebam atualizações regulares dos seus dados em um intervalo definido por você.

  26. Verifique o Agendamento de Instantâneo e configure uma atualização por hora de seus dados usando a lista de seleção Recorrência.

  27. Selecione Criar.

    Agora você tem um compartilhamento de dados ativo. Vamos examinar o que você pode ver como provedor de dados quando cria um compartilhamento de dados.

  28. Selecione o compartilhamento de dados criado, intitulado DataProvider. Você pode navegar até ele selecionando Compartilhamentos Enviados em Compartilhamento de Dados.

  29. Selecione Agendamento de instantâneo. Você poderá desabilitar o agendamento de instantâneos se escolher.

  30. Em seguida, selecione a guia Conjuntos de Dados. Você poderá adicionar outros conjuntos de dados a esse compartilhamento de dados depois que ele tiver sido criado.

  31. Selecione a guia Assinaturas de compartilhamento. Ainda não existe nenhuma assinatura de compartilhamento porque seu consumidor de dados ainda não aceitou seu convite.

  32. Navegue até a guia Convites. Aqui você verá uma lista de convites pendentes.

    Screenshot from the Azure portal of Pending invitations.

  33. Selecione o convite para janedoe@fabrikam.com . Selecione Excluir. Se o destinatário ainda não tiver aceitado o convite, ele não poderá mais fazê-lo.

  34. Selecione a guia Histórico . Nada é exibido ainda porque seu consumidor de dados ainda não aceitou seu convite nem disparou um instantâneo.

Receber dados (fluxo do consumidor de dados)

Agora que examinamos nosso compartilhamento de dados, estamos prontos para mudar o contexto e voltar para o consumidor de dados que era nosso.

Agora você deve ter um convite do Azure Data Share na caixa de entrada do Microsoft Azure. Inicie o Acesso via Web do Outlook (outlook.com) e entre usando as credenciais fornecidas para sua assinatura do Azure.

No email que você deve ter recebido, selecione "Exibir convite >". Neste ponto, você simulará a experiência do consumidor de dados ao aceitar um convite de provedores de dados para o compartilhamento de dados dele.

Screenshot from Outlook of an Email invitation.

Você pode ser solicitado a selecionar uma assinatura. Selecione a assinatura que na qual você veio trabalhando para este laboratório.

  1. Selecione o convite intitulado DataProvider.

  2. Nesta tela de convite, você observará vários detalhes sobre o compartilhamento de dados que você configurou anteriormente como um provedor de dados. Examine os detalhes e aceite os termos de uso se forem fornecidos.

  3. Selecione a Assinatura e o Grupo de Recursos que já existe para seu laboratório.

  4. Para a Conta do compartilhamento de dados, selecione DataConsumer. Você também pode criar uma conta do compartilhamento de dados.

  5. Ao lado de Nome do compartilhamento recebido, observe que o nome do compartilhamento padrão é o que foi especificado pelo provedor de dados. Dê ao compartilhamento um nome amigável que descreva os dados que você está prestes a receber, por exemplo, TaxiDataShare.

    Screenshot from the Azure portal of the page to Accept and Configure a data share.

  6. Você pode optar por Aceitar e configurar agora ou Aceitar e configurar depois. Se optar por aceitar e configurar agora, especifique uma conta de armazenamento em que todos os dados devem ser copiados. Se optar por aceitar e configurar depois, os conjuntos de dados no compartilhamento serão desmapeados e você precisará mapeá-los manualmente. Optaremos por isso mais tarde.

  7. Selecione Aceitar e configurar depois.

    Ao configurar essa opção, uma assinatura de compartilhamento é criada, mas não há lugar para os dados serem descarregados, pois nenhum destino foi mapeado.

    Em seguida, configure mapeamentos de conjuntos de dados para o compartilhamento de dados.

  8. Selecione o Compartilhamento Recebido (o nome especificado na etapa 5).

    O Instantâneo do gatilho está esmaecido, mas o compartilhamento está Ativo.

  9. Selecione a guia Conjuntos de Dados. Cada conjunto de dados é desmapeado, o que significa que não tem nenhum destino para o qual copiar os dados.

    Screenshot from the Azure portal of unmapped datasets.

  10. Selecione a tabela do Azure Synapse Analytics e selecione + Mapear para o Destino.

  11. No lado direito da tela, selecione a lista de seleção Tipo de Dados de Destino.

    Você pode mapear os dados SQL para uma ampla variedade de armazenamentos de dados. Nesse caso, mapearemos para um Banco de Dados SQL do Azure.

    Screenshot from the Azure portal of map datasets to target.

    (Opcional) Selecione Azure Data Lake Storage Gen2 como o tipo de dados de destino.

    (Opcional) Selecione a Assinatura, o Grupo de Recursos e a Conta de armazenamento nos quais você está trabalhando.

    (Opcional) Você pode optar por receber os dados em seu data lake no formato csv ou parquet.

  12. Ao lado de Tipo de dados de destino, selecione Banco de Dados SQL do Azure.

  13. Selecione a Assinatura, o Grupo de Recursos e a Conta de armazenamento nos quais você está trabalhando.

    Screenshot from the Azure portal of map datasets to a target Azure SQL Database.

  14. Antes de continuar, será necessário criar um usuário no SQL Server executando o script fornecido. Primeiro, copie o script fornecido para sua área de transferência.

  15. Abra uma guia do portal do Azure. Não feche sua guia existente, pois você precisará voltar a ela daqui a pouco.

  16. Na nova guia que você abriu, navegue até Bancos de dados SQL.

  17. Selecione o Banco de Dados SQL (deve haver apenas um em sua assinatura). Tenha cuidado para não selecionar o data warehouse.

  18. Selecione Editor de consultas (versão prévia)

  19. Use a autenticação do Microsoft Entra para fazer entrar no editor de consultas.

  20. Execute a consulta fornecida em seu compartilhamento de dados (copiada para a área de transferência na etapa 14).

    Com esse comando, o serviço Azure Data Share pode usar Identidades Gerenciadas para os Serviços do Azure a serem autenticados no SQL Server poderem copiar os dados para ele.

  21. Volte para a guia original e selecione Mapear para destino.

  22. Em seguida, selecione a pasta Azure Data Lake Storage Gen2 que faz parte do conjunto de dados e mapeie-a para uma conta de Armazenamento de Blobs do Azure.

    Screenshot from the Azure portal of map datasets to a target Azure Blob Storage.

    Com todos os conjuntos de dados mapeados, agora você está pronto para começar a receber dados do provedor de dados.

    Screenshot from the Azure portal of received shares mapped.

  23. Selecione Detalhes.

    Instantâneo de Gatilho não está mais esmaecido, pois o compartilhamento de dados agora tem destinos para os quais copiar.

  24. Selecione Instantâneo de Gatilho ->Cópia completa.

    Screenshot from the Azure portal of the trigger snapshot, full copy option.

    Isso inicia a cópia de dados em sua nova conta de compartilhamento de dados. Em um cenário do mundo real, esses dados viriam de um terceiro.

    Leva aproximadamente de 3 a 5 minutos para que os dados sejam distribuídos. Você pode monitorar o progresso selecionando na guia Histórico.

    Enquanto você aguarda, navegue até o compartilhamento de dados original (DataProvider) e exiba o status da guia Assinaturas de Compartilhamento e Histórico. Agora há uma assinatura ativa e, como provedor de dados, você também pode monitorar quando o consumidor de dados começou a receber os dados compartilhados.

  25. Volte para o compartilhamento de dados do consumidor de dados. Depois que o status do gatilho for bem-sucedido, navegue até o Banco de Dados SQL e o data lake de destino para ver se os dados foram descarregados para os respectivos armazenamentos.

Parabéns. Você concluiu o laboratório!