Copiar dados do Azure Data Lake Armazenamento Gen1 para Gen2 com Azure Data Factory

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Azure Data Lake Armazenamento Gen2 é um conjunto de capacidades dedicadas à análise de big data que é incorporada no armazenamento Azure Blob. Pode utilizá-lo para interagir com os dados ao utilizar os paradigmas de armazenamento de objetos e do sistema de ficheiros.

Se utilizar atualmente o Azure Data Lake Armazenamento Gen1, pode avaliar o Azure Data Lake Armazenamento Gen2 copiando dados de Data Lake Armazenamento Gen1 para Gen2 utilizando a Azure Data Factory.

AZure Data Factory é um serviço de integração de dados totalmente gerido na nuvem. Você pode usar o serviço para povoar o lago com dados de um rico conjunto de lojas de dados baseadas em nuvem e economizar tempo quando você constrói suas soluções de análise. Para obter uma lista de conectores suportados, consulte a tabela de lojas de dados suportadas.

A Azure Data Factory oferece uma solução de movimento de dados gerida e dimensionada. Devido à arquitetura de escala da Data Factory, pode ingerir dados a uma produção elevada. Para obter mais informações, consulte o desempenho da atividade copy.

Este artigo mostra-lhe como usar a ferramenta de dados de cópia da Data Factory para copiar dados do Azure Data Lake Armazenamento Gen1 para o Azure Data Lake Armazenamento Gen2. Pode seguir passos semelhantes para copiar dados de outros tipos de lojas de dados.

Pré-requisitos

  • Uma subscrição do Azure. Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.
  • Azure Data Lake Armazenamento conta da Gen1 com dados.
  • A azure Armazenamento conta com data lake Armazenamento Gen2 ativada. Se não tiver uma conta Armazenamento, crie uma conta.

Criar uma fábrica de dados

  1. No menu esquerdo, selecione Criar um data de recurso+ Fábrica de > > Dados de Análise .

    Screenshot mostrando a seleção da Data Factory no painel Novo.

  2. Na nova página de fábrica de dados, forneça valores para os campos que são mostrados na seguinte imagem:

    Screenshot mostrando a página da fábrica de novos dados.

    • Nome: Introduza um nome globalmente único para a sua fábrica de dados Azure. Se receber o erro "O nome da fábrica " de dados LoadADLSDemo " não está disponível", insira um nome diferente para a fábrica de dados. Por exemplo, utilize o nome oseunomeADFTutorialDataFactory. Crie a fábrica de dados novamente. Para ter acesso às regras de nomenclatura para artefactos do Data Factory, veja Regras de nomenclatura do Data Factory.
    • Subscrição: Selecione a sua subscrição Azure na qual criar a fábrica de dados.
    • Grupo de Recursos: Selecione um grupo de recursos existente da lista de recuos. Também pode selecionar a nova opção Criar e inserir o nome de um grupo de recursos. Para saber mais sobre grupos de recursos, veja Utilizar grupos de recursos para gerir os recursos do Azure.
    • Versão: selecione V2.
    • Localização: Selecione a localização para a fábrica de dados. Apenas são apresentadas as localizações suportadas na lista pendente. Os arquivos de dados utilizados pela fábrica de dados podem estar noutras localizações e regiões.
  3. Selecione Criar.

  4. Depois de terminar a criação, vá à sua fábrica de dados. Veja a página inicial da Data Factory como mostrado na seguinte imagem:

    Página inicial da Azure Data Factory, com o azulejo Open Azure Data Factory Studio.

  5. Selecione Open on the Open Azure Data Factory Studio para lançar a aplicação de integração de dados num separado.

Carregar dados para o Azure Data Lake Storage Gen2

  1. Na página inicial, selecione o azulejo Ingeste para lançar a ferramenta de dados de cópia.

    Screenshot que mostra a página inicial da ADF.

  2. Na página Propriedades, escolha a tarefa de cópia incorporada no tipo de Tarefa, e escolha Executar uma vez agora na cadência de tarefa ou agenda de tarefas, em seguida, selecione Seguinte.

  3. Na página 'Source data store', selecione + Nova ligação.

  4. Selecione Azure Data Lake Storage Gen1 na galeria de conectores e selecione Continuar.

    Screenshot mostrando a página de selecionar o Lago de Dados Azure Armazenamento ligação Gen1.

  5. Na página New connection (Azure Data Lake Armazenamento Gen1), siga estes passos:

    1. Selecione o seu Data Lake Armazenamento Gen1 para o nome da conta e especifique ou valide o Inquilino.
    2. Selecione a ligação de teste para validar as definições. Em seguida, selecione Criar.

    Importante

    Neste walk-through, você usa uma identidade gerida para recursos Azure para autenticar o seu Azure Data Lake Armazenamento Gen1. Para conceder à identidade gerida as permissões adequadas no Lago de Dados Azure Armazenamento Gen1, siga estas instruções.

    Screenshot mostrando a configuração do Lago de Dados Azure Armazenamento ligação Gen1.

  6. Na página da loja de dados Source, complete os seguintes passos.

    1. Selecione a ligação recém-criada na secção Ligação.
    2. Em Ficheiro ou Pasta, navegue na pasta e no ficheiro que pretende copiar. Selecione a pasta ou ficheiro e selecione OK.
    3. Especifique o comportamento da cópia selecionando as opções de cópia Recursiva e Binary. Selecione Seguinte.

    Screenshot mostrando a página da loja de dados de origem.

  7. Na página da loja de dados destino, selecione + Nova ligação > Azure Data Lake Armazenamento Gen2 > Continue.

    Screenshot mostrando a página de selecionar o Lago de Dados Azure Armazenamento ligação Gen2.

  8. Na página New connection (Azure Data Lake Armazenamento Gen2), siga estes passos:

    1. Selecione a sua conta Armazenamento Gen2 capaz de data lake a partir da lista de drop-down de nome de conta Armazenamento.
    2. Selecione Criar para criar a ligação.

    Screenshot mostrando a configuração do Lago de Dados Azure Armazenamento ligação Gen2.

  9. Na página da loja de dados destino, complete os seguintes passos.

    1. Selecione a ligação recém-criada no bloco De Ligação.
    2. No caminho da pasta, introduza o copyfromadlsgen1 como o nome da pasta de saída e selecione Seguinte. A Data Factory cria o correspondente sistema de ficheiros Azure Data Lake Armazenamento Gen2 durante a cópia, se não existirem.

    Screenshot mostrando a página da loja de dados de destino.

  10. Na página Definições, especifique copyFromADLSGen1ToGen2 para o campo de nome de tarefa e, em seguida, selecione Seguinte para utilizar as definições predefinidos.

  11. Na página Resumo, reveja as definições e selecione Seguinte.

    Screenshot mostrando a página resumo.

  12. Na página 'Implantação', selecione Monitor para monitorizar o gasoduto.

    Screenshot mostrando a página de Implementação.

  13. Tenha em atenção que o separador Monitorização à esquerda é selecionado automaticamente. A coluna de nomes pipeline inclui links para visualizar detalhes da atividade e para refazer o gasoduto.

    Screenshot mostrando a página de monitorização do gasoduto funciona.

  14. Para visualizar os percursos de atividade associados à execução do gasoduto, selecione a ligação na coluna de nomes Pipeline. Há apenas uma atividade (atividade copiar) no pipeline, pelo que só vai ver uma entrada. Para voltar à vista do gasoduto, selecione a ligação de todas as tubagem no menu de migalhas de pão na parte superior. Selecione Atualizar para atualizar a lista.

    Screenshot mostrando a página de monitorização da atividade é executado.

  15. Para monitorizar os detalhes da execução de cada atividade de cópia, selecione o link Details (imagem de óculos) sob a coluna de nome de Atividade na vista de monitorização da atividade. Pode monitorizar detalhes como o volume de dados copiados da fonte para a pia, saída de dados, etapas de execução com a duração correspondente e configurações usadas.

    Screenshot mostrando os detalhes da atividade executar.

  16. Verifique se os dados são copiados na sua conta Azure Data Lake Armazenamento Gen2.

Melhores práticas

Para avaliar a atualização do Lago Azure Data Armazenamento Gen1 para Azure Data Lake Armazenamento Gen2 em geral, consulte upgrade suas soluções de análise de dados de Azure Data Lake Armazenamento Gen1 a Azure Data Lake Armazenamento Gen2. As secções seguintes introduzem as melhores práticas para a utilização da Data Factory para uma atualização de dados de Data Lake Armazenamento Gen1 para Data Lake Armazenamento Gen2.

Migração inicial de dados instantâneos

Desempenho

A ADF oferece uma arquitetura sem servidor que permite o paralelismo a diferentes níveis, o que permite que os desenvolvedores construam oleodutos para utilizar plenamente a largura de banda da sua rede, bem como o armazenamento IOPS e largura de banda para maximizar a produção de movimento de dados para o seu ambiente.

Os clientes migraram com sucesso petabytes de dados que consistem em centenas de milhões de ficheiros de Data Lake Armazenamento Gen1 para Gen2, com uma produção sustentada de 2 GBps e superior.

você pode alcançar grandes velocidades de movimento de dados através de diferentes níveis de paralelismo:

  • Uma única atividade de cópia pode tirar partido dos recursos de cálculo escaláveis: ao utilizar o Tempo de Execução da Integração Azure, pode especificar até 256 unidades de integração de dados (DIS) para cada atividade de cópia de forma sem servidor; ao utilizar o tempo de funcionamento de integração auto-hospedado, pode escalar manualmente a máquina ou escalar para várias máquinas (até 4 nós), e uma única atividade de cópia dividirá o seu ficheiro definido em todos os nós.
  • Uma única atividade de cópia lê e escreve para a loja de dados utilizando vários fios.
  • O fluxo de controlo ADF pode iniciar várias atividades de cópia em paralelo, por exemplo, utilizando para cada loop.

Divisórias de dados

Se o seu tamanho total de dados em Data Lake Armazenamento Gen1 for inferior a 10 TB e o número de ficheiros for inferior a 1 milhão, pode copiar todos os dados numa única execução de atividade de cópia. Se tiver uma maior quantidade de dados para copiar, ou se quiser a flexibilidade para gerir a migração de dados em lotes e completar cada um deles dentro de um prazo específico, parti os dados. A divisão também reduz o risco de qualquer problema inesperado.

A forma de dividir os ficheiros é utilizar o intervalo de nome-listAfter/listSFore in copy activity property. Cada atividade de cópia pode ser configurada para copiar uma partição de cada vez, de modo que várias atividades de cópia podem copiar dados de um único Data Lake Armazenamento conta Gen1 em simultâneo.

Rate limiting (Limitação de taxa)

Como uma boa prática, conduza um POC de desempenho com um conjunto de dados de amostra representativa, para que possa determinar um tamanho de partição apropriado.

  1. Comece com uma única partição e uma única atividade de cópia com a definição de DIU predefinido. A cópia paralela é sempre sugerida para ser definida como vazia (predefinida). Se a produção da cópia não for boa para si, identifique e resolva os estrangulamentos de desempenho seguindo os passos de afinaçãode desempenho .

  2. Aumente gradualmente a definição de DIU até atingir o limite de largura de banda da sua rede ou limite de largura de banda IOPS/banda dos armazéns de dados, ou atingiu o bricolage máximo permitido numa única atividade de cópia.

  3. Se maximizou o desempenho de uma única atividade de cópia, mas ainda não alcançou os limites superiores de produção do seu ambiente, pode executar várias atividades de cópia em paralelo.

Quando vê um número significativo de erros de estrangulamento da monitorização da atividade de cópia,indica que atingiu o limite de capacidade da sua conta de armazenamento. A ADF tentará automaticamente superar cada erro de estrangulamento para garantir que não haverá dados perdidos, mas muitas retró razões também impactam a sua produção de cópia. Neste caso, é encorajado a reduzir o número de atividades de cópia em funcionamento em simultâneo para evitar quantidades significativas de erros de estrangulamento. Se tem usado uma única atividade de cópia para copiar dados, então é encorajado a reduzir o DIU.

Migração de dados delta

Pode utilizar várias abordagens para carregar apenas os ficheiros novos ou atualizados do Data Lake Armazenamento Gen1:

  • Carregue ficheiros novos ou atualizados por cada vez que a pasta ou o nome do ficheiro. Um exemplo é /2019/05/13/*.
  • Carregue ficheiros novos ou atualizados por LastModifiedDate. Se estiver a copiar grandes quantidades de ficheiros, faça as divisórias primeiro para evitar o resultado de baixa produção de cópias resultantes de uma única cópia que digitalize toda a sua conta de Data Lake Armazenamento Gen1 para identificar novos ficheiros.
  • Identifique ficheiros novos ou atualizados por qualquer ferramenta ou solução de terceiros. Em seguida, passe o nome do ficheiro ou da pasta para o pipeline Data Factory através de um parâmetro ou de uma tabela ou ficheiro.

A frequência adequada para fazer a carga incremental depende do número total de ficheiros no Azure Data Lake Armazenamento Gen1 e do volume de ficheiros novos ou atualizados a serem carregados sempre.

Segurança da rede

Por padrão, a ADF transfere dados do Azure Data Lake Armazenamento Gen1 para a Gen2 utilizando a ligação encriptada através do protocolo HTTPS. HTTPS fornece encriptação de dados em trânsito e evita escutas e ataques man-in-the-middle.

Em alternativa, se não quiser que os dados sejam transferidos através da Internet pública, pode obter uma maior segurança transferindo dados através de uma rede privada.

Preservar ACLs

Se quiser replicar os ACLs juntamente com ficheiros de dados quando atualizar de Data Lake Armazenamento Gen1 para Data Lake Armazenamento Gen2, consulte Preserve ACLs de Data Lake Armazenamento Gen1.

Resiliência

Dentro de uma única atividade de cópia executada, a ADF tem mecanismo de relemisão incorporado para que possa lidar com um certo nível de falhas transitórias nas lojas de dados ou na rede subjacente. Se migrar mais de 10 dados de TB, é encorajado a dividir os dados para reduzir o risco de quaisquer problemas inesperados.

Também pode permitir a tolerância a falhas na atividade de cópia para saltar os erros predefinidos. A verificação da consistência dos dados na atividade de cópia também pode ser habilitada a fazer verificação adicional para garantir que os dados não são apenas copiados com sucesso de fonte para loja de destino, mas também verificados como consistentes entre a loja de origem e destino.

Permissões

Na Data Factory, o conector Data Lake Armazenamento Gen1 suporta o principal do serviço e geriu a identidade para autenticações de recursos Azure. O conector Data Lake Armazenamento Gen2 suporta a chave de conta, o principal do serviço e a identidade gerida para autenticações de recursos Azure. Para que a Data Factory possa navegar e copiar todos os ficheiros ou listas de controlo de acesso (ACLs) de que necessita, conceda permissões suficientemente elevadas para a conta a que fornece para aceder, ler ou escrever todos os ficheiros e definir ACLs se assim o desejar. Conceda-lhe um papel de super-utilizador ou proprietário durante o período de migração.

Passos seguintes