Copiar novos arquivos de forma incremental com base no nome do arquivo particionado por tempo usando a ferramenta Copiar Dados

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

Neste tutorial, você pode usar o portal do Azure para criar um Data Factory. Em seguida, você usa a ferramenta Copiar Dados para criar um pipeline que copia novos arquivos de forma incremental com base no nome do arquivo particionado por tempo do armazenamento de Blob do Azure para o armazenamento de Blob do Azure.

Observação

Se estiver se familiarizando com o Azure Data Factory, confira Introdução ao Azure Data Factory.

Neste tutorial, você executa as seguintes etapas:

  • Criar um data factory.
  • Usar a ferramenta Copy Data para criar um pipeline.
  • Monitore as execuções de pipeline e de atividade.

Pré-requisitos

  • Assinatura do Azure: Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.
  • Conta de armazenamento do Azure: use o armazenamento de Blob como o armazenamento de dados de origem e coletor. Se você não tiver uma conta de armazenamento do Azure, confira as instruções em Criar uma conta de armazenamento.

Criar dois contêineres no armazenamento de Blob

Prepare seu armazenamento de Blob para o tutorial seguindo estas etapas.

  1. Crie um contêiner chamado origem. Crie um caminho de pasta como 2021/07/15/06 em seu contêiner. Crie um arquivo de texto vazio e nomeie-o file1.txt. Carregue o file1.txt no caminho da pasta origem/2021/07/15/06 em sua conta de armazenamento. É possível usar várias ferramentas para executar essas tarefas, como o Azure Storage Explorer.

    upload files

    Observação

    Ajuste o nome da pasta com a sua hora UTC. Por exemplo, se a hora UTC atual for 6:10 em 15 de julho de 2021, você poderá criar o caminho da pasta como origem/2021/07/15/06/ pela regra de origem/{Ano}/{Mês}/{Dia}/{Hora}/ .

  2. Crie um contêiner chamado destino. É possível usar várias ferramentas para executar essas tarefas, como o Azure Storage Explorer.

Criar uma data factory

  1. No menu à esquerda, selecione Criar um recurso>Integração>Data Factory:

    Data Factory selection in the "New" pane

  2. Na página Novo data factory, em Nome, insira ADFTutorialDataFactory.

    O nome do seu data factory deve ser globalmente exclusivo. Você deve ver a seguinte mensagem de erro:

    New data factory error message for duplicate name.

    Se você receber uma mensagem de erro sobre o valor do nome, insira um nome diferente para o data factory. Por exemplo, use o nome seunomeADFTutorialDataFactory. Para ver as regras de nomenclatura de artefatos do Data Factory, confira Regras de nomenclatura do Data Factory.

  3. Selecione a assinatura do Azure na qual deseja criar o novo data factory.

  4. Em Grupo de Recursos, use uma das seguintes etapas:

    a. Selecione Usar existentee selecione um grupo de recursos existente na lista suspensa.

    b. Selecione Criar novoe insira o nome de um grupo de recursos.

    Para saber mais sobre grupos de recursos, confira Usar grupos de recursos para gerenciar recursos do Azure.

  5. Em versão, selecione V2 para a versão.

  6. Em local, selecione o local para o data factory. Somente os locais com suporte são exibidos na lista suspensa. Os armazenamentos de dados (por exemplo, Armazenamento do Azure e Banco de Dados SQL) e os serviços de computação (por exemplo, Azure HDInsight) usados pelo seu data factory podem estar em outros locais e regiões.

  7. Selecione Criar.

  8. Depois de finalizada a criação, a home page do Data Factory é exibida.

  9. Para iniciar a interface do usuário (IU) do Azure Data Factory em uma guia separada, selecione Abrir no bloco Open Azure Data Factory Studio.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

Usar a ferramenta Copy Data para criar um pipeline

  1. Na página inicial do ADF (Azure Data Factory), selecione Ingerir para iniciar a ferramenta Copiar Dados.

    Screenshot that shows the ADF home page.

  2. Na página Propriedades, execute as seguintes etapas:

    1. Em Tipo de tarefa, selecione Tarefa de cópia interna.

    2. Em Cadência da tarefa ou Agendamento da tarefa, selecione Janela em cascata.

    3. Em Recorrência, insira 1 hora(s) .

    4. Selecione Avançar.

    Properties page

  3. Na página Configurações do armazenamento de dados, conclua as seguintes etapas:

    a. Selecione + Criar conexão para adicionar uma conexão.

    b. Selecione Armazenamento de Blobs do Azure na galeria e, em seguida, selecione Continuar.

    c. Na página Nova conexão (Armazenamento de Blobs do Azure) , especifique um nome para a conexão. Selecione a assinatura do Azure e a conta de armazenamento na lista Nome da conta de armazenamento. Teste a conexão e, em seguida, selecione Concluir.

    Source data store page

    d. Na página Armazenamento de dados de origem, selecione a conexão criada recentemente na seção Conexão.

    e. Na seção Arquivo ou pasta, procure e selecione o contêiner de origem e selecione OK.

    f. Em Comportamento de carregamento de arquivo, selecione Carga incremental: nomes da pasta/arquivo particionados por tempo.

    g. Grave o caminho da pasta dinâmica como origem/{ano}/{mês}/{dia}/{hora}/ e altere o formato, conforme mostrado na captura de tela a seguir.

    h. Marque Cópia binária e clique em Avançar.

    Screenshot that shows the configuration of Source data store page.

  4. Na página Armazenamento de dados de destino, conclua as etapas a seguir:

    1. Selecione AzureBlobStorage, que é a mesma conta de armazenamento do armazenamento de fonte de dados.

    2. Procure e selecione a pasta de destino e clique em OK.

    3. Grave o caminho da pasta dinâmica como origem/{ano}/{mês}/{dia}/{hora}/ e altere o formato, conforme mostrado na captura de tela a seguir.

    4. Selecione Avançar.

    Screenshot that shows the configuration of Destination data store page.

  5. Na página Configurações, em Nome da tarefa, insira DeltaCopyFromBlobPipeline e selecione Avançar. A interface do usuário do Data Factory cria um pipeline com o nome especificado da tarefa.

    Screenshot that shows the configuration of settings page.

  6. Na página Resumo, analise as configurações e selecione Avançar.

    Summary page

  7. Na página Implantação, selecione Monitorar para monitorar o pipeline (tarefa). Deployment page

  8. Observe que a guia Monitor à esquerda é selecionada automaticamente. Você precisa aguardar a execução do pipeline quando ele for disparado automaticamente (cerca de uma hora). Quando ele for executado, clique no link do nome do pipeline DeltaCopyFromBlobPipeline para exibir os detalhes da execução da atividade ou execute novamente o pipeline. Selecione Atualizar para atualizar a lista.

    Screenshot shows the Pipeline runs pane.

  9. Há apenas uma atividade (atividade de cópia) no pipeline. Assim, você vê apenas uma entrada. Ajuste a largura das colunas de Origem e de Destino (se necessário) para exibir mais detalhes. Você pode ver que o arquivo de origem (file1.txt) foi copiado de origem/2021/07/15/06/ para destino/2021/07/15/06/ com o mesmo nome de arquivo.

    Screenshot shows pipeline run details.

    Você também pode verificar o mesmo usando o Gerenciador de Armazenamento do Azure (https://storageexplorer.com/) para verificar os arquivos.

    Screenshot shows pipeline run details for the destination.

  10. Crie outro arquivo de texto vazio com o novo nome como file2.txt. Carregue o arquivo file2.txt no caminho da pasta origem/2021/07/15/07 em sua conta de armazenamento. É possível usar várias ferramentas para executar essas tarefas, como o Azure Storage Explorer.

    Observação

    Você deve estar ciente de que um novo caminho de pasta deve ser criado. Ajuste o nome da pasta com a sua hora UTC. Por exemplo, se a hora UTC atual for 7:30 em 15 de julho de 2021, você poderá criar o caminho da pasta como origem/2021/07/15/07/ pela regra de {ano}/{mês}/{dia}/{hora}/ .

  11. Para voltar à exibição Execução de pipeline, selecione Todas as execuções de pipeline e aguarde até que o mesmo pipeline seja disparado novamente automaticamente após outra hora.

    Screenshot shows the All pipeline runs link to return to that page.

  12. Selecione o novo link DeltaCopyFromBlobPipeline para a segunda execução de pipeline quando ele chegar e faça o mesmo para revisar os detalhes. Você verá que o arquivo de origem (file2.txt) foi copiado de origem/2021/07/15/07/ para destino/2021/07/15/07/ com o mesmo nome de arquivo. Você também pode verificar o mesmo usando o Gerenciador de Armazenamento do Azure (https://storageexplorer.com/) para verificar os arquivos no contêiner de destino.

Avance para o tutorial a seguir para saber mais sobre como transformar dados usando um cluster Spark no Azure: