Carregar dados no Azure Data Lake Storage Gen1, usando o Azure Data Factory

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

O Azure Data Lake Storage Gen1 (conhecido anteriormente como Azure Data Lake Store) é um repositório de hiperescala que abrange toda a empresa para cargas de trabalho analíticas de big data. O Data Lake Storage Gen1 permite que você capture dados de qualquer tamanho, tipo e velocidade de ingestão. Os dados são capturados em um único local para análise operacional e exploratória.

O Azure Data Factory é um serviço de integração de dados baseado em nuvem completamente gerenciado. Você pode usar o serviço para preencher o lago com dados do sistema existente e economizar tempo ao criar soluções de análise.

O Azure Data Factory oferece os seguintes benefícios para carregar dados no Data Lake Storage Gen1:

  • Fácil de configurar: um assistente intuitivo de cinco etapas sem necessidade de script.
  • Suporte avançado de armazenamento de dados: suporte interno para um conjunto avançado de armazenamentos de dados locais e baseados em nuvem. Para obter uma lista detalhada, consulte a tabela de Suporte para repositórios de dados.
  • Seguro e em conformidade: os dados são transferidos via HTTPS ou ExpressRoute. A presença do serviço global garante que os dados nunca saiam do limite geográfico.
  • Alto desempenho: velocidade de carregamento de dados de até 1 GB/s no Data Lake Storage Gen1. Para obter detalhes, consulte Desempenho da atividade de cópia.

Este artigo mostra como usar a ferramenta Copiar Dados do Data Factory para carregar dados do Amazon S3 no Data Lake Storage Gen1. Você pode seguir as etapas semelhantes para copiar dados de outros tipos de armazenamentos de dados.

Pré-requisitos

  • Assinatura do Azure: Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.
  • Conta do Data Lake Storage Gen1: se você não tem uma conta do Data Lake Storage Gen1, confira as instruções em Criar uma conta do Data Lake Storage Gen1.
  • Amazon S3: Este artigo mostra como copiar dados do Amazon S3. Você pode usar outros repositórios de dados seguindo as etapas semelhantes.

Criar uma data factory

  1. Se você ainda não criou o data factory, siga as etapas no Início Rápido: crie um data factory usando o portal do Azure e o Estúdio do Azure Data Factory para criar um. Depois de criá-lo, navegue até o data factory no portal do Azure.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Selecione Abrir no bloco Abrir Estúdio do Azure Data Factory para iniciar o aplicativo Data Integration em uma guia separada.

Carregar dados no Data Lake Storage Gen1

  1. Na página inicial, selecione o bloco Ingerir para a inicialização da ferramenta Copiar Dados:

    Screenshot that shows the ADF home page.

  2. Na página Propriedades, especifique Copy Data, especifique CopyFromAmazonS3ToADLS para o campo Nome da tarefa e clique em Avançar:

    Properties page

  3. Na página Armazenamento de dados de origem, selecione + Criar conexão:

    Source data store page

    Selecione Amazon S3 e Continuar

    Source data store s3 page

  4. Na página Especificar conexão Amazon S3, faça o seguinte:

    1. Especifique o valor da ID da chave de acesso.

    2. Especifique o valor da chave de acesso secreta.

    3. Selecione Concluir.

      Screenshot shows the New Linked Service pane where you can enter values.

    4. Você verá uma nova conexão. Selecione Avançar.

    Screenshot shows your new connection.

  5. Na página Escolher arquivo de entrada ou pasta página, navegue até a pasta e o arquivo que você deseja copiar. Selecione a pasta/arquivo, selecione Escolhere, em seguida, selecione Avançar:

    Choose input file or folder

  6. Escolha o comportamento de cópia marcando as opções Copiar arquivos recursivamente e Cópia binária (copiar arquivos como-são). Selecione Avançar:

    Screenshot shows the Choose the input file or folder where you can select Copy file recursively and Binary Copy.

  7. Na pagina Armazenamento de dados de destino, selecione + Criar conexão e, em seguida, selecione Azure Data Lake Storage Gen1 e depois Continuar:

    Destination data store page

  8. Na página Novo Serviço Vinculado (Azure Data Lake Storage Gen1) , execute as seguintes etapas:

    1. Selecione sua conta do Data Lake Storage Gen1 para o nome da conta do Data Lake Store.
    2. Especifique o Locatário e selecione Concluir.
    3. Selecione Avançar.

    Importante

    Neste passo a passo, você deve usar uma identidade gerenciada para recursos do Azure para autenticar a conta do Data Lake Storage Gen1. Verifique se você concedeu as permissões corretas no Data Lake Store Gen1 ao MSI seguindo estas instruções.

    Specify Data Lake Storage Gen1 account

  9. Em Escolher o arquivo de saída ou pasta insira copyfroms3 como o nome da pasta de saída e selecione Avançar:

    Screenshot shows the folder path you enter.

  10. Na página Configurações, selecione Avançar:

    Settings page

  11. Na página Resumo, examine as configurações e selecione Avançar:

    Summary page

  12. Na Página Implantação, selecione Monitor para monitorar o pipeline (tarefa):

    Deployment page

  13. Observe que a guia Monitor à esquerda é selecionada automaticamente. A coluna Ações inclui links para exibir detalhes da execução da atividade e executar o pipeline novamente:

    Monitor pipeline runs

  14. Para exibir as execuções de atividade associadas com a execução do pipeline, selecione o link Exibir as Execuções de Atividade na coluna Ações. Há apenas uma atividade (atividade de cópia) no pipeline. Assim, você vê apenas uma entrada. Para voltar à exibição de execuções de pipeline, selecione o link Pipelines na parte superior. Selecione Atualizar para atualizar a lista.

    Monitor activity runs

  15. Para monitorar os detalhes de execução de cada atividade de cópia, selecione o link Detalhes em Ações no modo de exibição de monitoramento de atividades. Você pode monitorar detalhes como o volume de dados copiados da fonte para o coletor, taxa de transferência de dados, etapas de execução com duração correspondente e configurações usadas:

    Monitor activity run details

  16. Verifique se os dados são copiados para a conta do Data Lake Storage Gen1:

    Verify Data Lake Storage Gen1 output

Confira o seguinte artigo para saber mais sobre o suporte do Data Lake Storage Gen1: