Guia de desempenho e de escalabilidade da Atividade de cópia

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Por vezes, você quer realizar uma migração de dados em larga escala de data lake ou armazém de dados empresariais (EDW), para Azure. Outras vezes você quer ingerir grandes quantidades de dados, de diferentes fontes para Azure, para análise de big data. Em cada caso, é fundamental alcançar o melhor desempenho e escalabilidade.

Os oleodutos Azure Data Factory e Azure Synapse Analytics fornecem um mecanismo para ingerir dados, com as seguintes vantagens:

  • Lida com grandes quantidades de dados
  • É altamente performante
  • É rentável

Estas vantagens são um excelente ajuste para engenheiros de dados que querem construir oleodutos escaláveis de ingestão de dados que são altamente performantes.

Depois de ler este artigo, poderá responder às seguintes perguntas:

  • Que nível de desempenho e escalabilidade posso conseguir usando a atividade de cópia para cenários de migração de dados e ingestão de dados?
  • Que passos devo tomar para afinar o desempenho da atividade da cópia?
  • Que otimizações de desempenho posso utilizar para uma única atividade de cópia?
  • Que outros fatores externos devem considerar ao otimizar o desempenho da cópia?

Nota

Se não estiver familiarizado com a atividade da cópia em geral, consulte a visão geral da atividade da cópia antes de ler este artigo.

Copiar desempenho e escalabilidade alcançáveis utilizando gasodutos Azure Data Factory e Synapse

Os oleodutos Azure Data Factory e Synapse oferecem uma arquitetura sem servidor que permite o paralelismo a diferentes níveis.

Esta arquitetura permite-lhe desenvolver oleodutos que maximizem o movimento de dados para o seu ambiente. Estes gasodutos utilizam plenamente os seguintes recursos:

  • Largura de banda de rede entre as lojas de dados de origem e destino
  • Operações de entrada/saída de dados de origem ou destino por segundo (IOPS) e largura de banda

Esta utilização completa significa que pode estimar a produção global medindo a produção mínima disponível com os seguintes recursos:

  • Loja de dados de origem
  • Arquivo de dados de destino
  • Largura de banda de rede entre as lojas de dados de origem e destino

O quadro abaixo mostra o cálculo da duração do movimento de dados. A duração de cada célula é calculada com base numa determinada rede e na largura de banda da loja de dados e num dado tamanho de carga útil.

Nota

A duração fornecida abaixo destina-se a representar um desempenho exequível numa solução de integração de dados de ponta a ponta, utilizando uma ou mais técnicas de otimização de desempenho descritas nas funcionalidades de otimização de desempenho do Copy, incluindo a utilização do ForEach para partição e desovar de várias atividades de cópia simultânea. Recomendamos que siga os passos estabelecidos nas etapas de afinação de desempenho para otimizar o desempenho da cópia para o seu conjunto de dados específico e configuração do sistema. Deve utilizar os números obtidos nos seus testes de afinação de desempenho para planeamento de implantação de produção, planeamento de capacidades e projeção de faturação.

 

Tamanho dos dados /
largura de banda
50 Mbps 100 Mbps 500 Mbps 1 Gbps 5 Gbps 10 Gbps 50 Gbps
1 GB 2,7 min 1,4 min 0,3 min 0,1 min 0,03 min 0,01 min 0,0 min
10 GB 27.3 min 13,7 min 2,7 min 1,3 min 0,3 min 0,1 min 0,03 min
100 GB 4,6 horas 2,3 horas 0,5 horas 0,2 horas 0,05 horas 0,02 horas 0,0 horas
1 TB 46,6 horas 23,3 horas 4,7 horas 2,3 horas 0,5 horas 0,2 horas 0,05 horas
10 TB 19,4 dias 9,7 dias 1,9 dias 0,9 dias 0,2 dias 0,1 dias 0,02 dias
100 TB 194,2 dias 97,1 dias 19,4 dias 9,7 dias 1,9 dias 1 dia 0,2 dias
1 PB 64.7 mo 32.4 mo 6.5 mo 3.2 mo 0.6 mo 0.3 mo 0.06 mo
10 PB 647.3 mo 323.6 mo 64.7 mo 31.6 mo 6.5 mo 3.2 mo 0.6 mo

A cópia é escalável a diferentes níveis:

Como as balanças de cópia

  • O fluxo de controlo pode iniciar múltiplas atividades de cópia em paralelo, por exemplo, utilizando para cada laço.

  • Uma única atividade de cópia pode tirar partido dos recursos de computação escaláveis.

    • Ao utilizar o tempo de execução da integração do Azure (IR), pode especificar até 256 unidades de integração de dados (DIS) para cada atividade de cópia, de forma sem servidor.
    • Ao utilizar o IR auto-hospedado, pode tomar qualquer uma das seguintes abordagens:
      • Dimensione manualmente a máquina.
      • Dimensionar para várias máquinas(até 4 nós)e uma única atividade de cópia dividirá o seu ficheiro definido em todos os nós.
  • Uma única atividade de cópia lê e escreve para a loja de dados utilizando vários fios em paralelo.

Passos de afinação de desempenho

Tome os seguintes passos para afinar a performance do seu serviço com a atividade de cópia:

  1. Pegue um conjunto de dados de teste e estabeleça uma linha de base.

    Durante o desenvolvimento, teste o seu oleoduto utilizando a atividade de cópia contra uma amostra de dados representativa. O conjunto de dados que escolher deve representar os seus padrões de dados típicos ao longo dos seguintes atributos:

    • Estrutura de pasta
    • Padrão de arquivo
    • Esquema de dados

    E o seu conjunto de dados deve ser grande o suficiente para avaliar o desempenho da cópia. Um bom tamanho leva pelo menos 10 minutos para a atividade da cópia ser concluída. Recolher detalhes de execução e características de desempenho após monitorização da atividade da cópia.

  2. Como maximizar o desempenho de uma única atividade de cópia:

    Recomendamos que maximize primeiro o desempenho utilizando uma única atividade de cópia.

    • Se a atividade de cópia estiver a ser executada num tempo de integração do Azure:

      Comece com valores predefinidos para Unidades de Integração de Dados (DIU) e definições de cópia paralela.

    • Se a atividade de cópia estiver a ser executada num tempo de integração auto-hospedado:

      Recomendamos que utilize uma máquina dedicada para hospedar o IR. A máquina deve ser separada do servidor que hospeda a loja de dados. Comece com valores predefinidos para a definição de cópia paralela e utilize um único nó para o IR auto-hospedado.

    Faça um teste de desempenho. Tome nota do desempenho alcançado. Inclua os valores reais utilizados, tais como DIs e cópias paralelas. Consulte a monitorização da atividade de cópia sobre como recolher resultados de execução e definições de desempenho utilizadas. Saiba como resolver o desempenho da atividade da cópia para identificar e resolver o estrangulamento.

    Iterate para realizar ensaios de desempenho adicionais seguindo a orientação de resolução de problemas e afinação. Uma vez que a atividade de cópia única é executada não pode obter melhor produção, considere se maximiza a produção agregada executando várias cópias simultaneamente. Esta opção é discutida na próxima bala numerada.

  3. Como maximizar a produção agregada executando várias cópias simultaneamente:

    Por esta altura, já maximizou o desempenho de uma única atividade de cópia. Se ainda não alcançou os limites superiores de produção do seu ambiente, pode executar várias atividades de cópia em paralelo. Pode funcionar em paralelo utilizando as construções de fluxo de controlo. Uma dessas construções é o for cada laço. Para obter mais informações, consulte os seguintes artigos sobre modelos de solução:

  4. Expanda a configuração para todo o conjunto de dados.

    Quando estiver satisfeito com os resultados e desempenho da execução, pode expandir a definição e o pipeline para cobrir todo o conjunto de dados.

Desempenho da atividade da cópia de resolução de problemas

Siga os passos de afinação de desempenho para planear e realizar o teste de desempenho para o seu cenário. E aprender a resolver problemas com o desempenho de cada atividade de cópia a partir do desempenho da atividade da cópia de resoluçãode problemas .

Copiar funcionalidades de otimização de desempenho

O serviço fornece as seguintes funcionalidades de otimização de desempenho:

Unidades de Integração de Dados

Uma Unidade de Integração de Dados (DIU) é uma medida que representa o poder de uma única unidade nos oleodutos Azure Data Factory e Synapse. A energia é uma combinação de CPU, memória e alocação de recursos de rede. O DIU aplica-se apenas ao tempo de funcionamento da integração do Azure. O DIU não se aplica ao tempo de integração auto-hospedado. Saiba mais aqui.

Escalabilidade de tempo de execução de integração auto-hospedada

Talvez queira acolher uma carga de trabalho cada vez mais simultânea. Ou talvez queira obter um desempenho mais elevado no seu nível de carga de trabalho atual. Pode aumentar a escala de processamento através das seguintes abordagens:

  • Pode aumentar o IR auto-alojado, aumentando o número de empregos simultâneos que podem funcionar num nó.
    A escala só funciona se o processador e a memória do nó estiverem a ser menos do que totalmente utilizados.
  • Pode escalar o IR auto-hospedado, adicionando mais nóns (máquinas).

Para obter mais informações, consulte:

Cópia paralela

Pode definir a parallelCopies propriedade para indicar o paralelismo que pretende que a atividade da cópia seja utilizada. Pense nesta propriedade como o número máximo de fios dentro da atividade da cópia. Os fios funcionam em paralelo. Os fios ou lêem a partir da sua fonte ou escrevem para as suas lojas de dados de lavatórios. Saiba mais.

Cópia encenada

Uma operação de cópia de dados pode enviar os dados diretamente para a loja de dados da pia. Em alternativa, pode optar por utilizar o armazenamento Blob como uma loja de preparação provisória. Saiba mais.

Passos seguintes

Consulte os outros artigos de atividade de cópia: