Utilizar o Browser de Tarefas e o Visualizador de Tarefas do Azure Data Lake Analytics

Importante

O Azure Data Lake Analytics descontinuado a 29 de fevereiro de 2024. Saiba mais com este anúncio.

Para análise de dados, a sua organização pode utilizar o Azure Synapse Analytics ou o Microsoft Fabric.

O serviço Data Lake Analytics do Azure arquiva as tarefas submetidas num arquivo de consultas. Neste artigo, vai aprender a utilizar o Job Browser e a Vista de Trabalho no Azure Data Lake Tools para Visual Studio para encontrar as informações históricas da tarefa.

Por predefinição, o serviço Data Lake Analytics arquiva as tarefas durante 30 dias. O período de expiração pode ser configurado a partir do portal do Azure ao configurar a política de expiração personalizada. Não poderá aceder às informações da tarefa após a expiração.

Pré-requisitos

Veja Os pré-requisitos do Data Lake Tools para Visual Studio.

Abrir o Browser de Tarefas

Aceda ao Browser de Tarefas através do Server Explorer>Azure> Data Lake Analytics> Jobs no Visual Studio. Com o Browser de Tarefas, pode aceder ao arquivo de consultas de uma conta Data Lake Analytics. O Browser de Tarefas apresenta o Arquivo de Consultas à esquerda, mostrando as informações básicas da tarefa e a Vista de Trabalho à direita com informações detalhadas sobre a tarefa.

Vista de Tarefa

A Vista de Trabalho mostra as informações detalhadas de uma tarefa. Para abrir uma tarefa, pode fazer duplo clique numa tarefa no Browser de Tarefas ou abri-la a partir do menu Data Lake ao clicar em Vista de Tarefa. Deverá ver uma caixa de diálogo preenchida com o URL da tarefa.

Browser de Tarefas do Visual Studio das Ferramentas do Data Lake

A Vista de Trabalho contém:

  • Resumo da Tarefa

    Atualize a Vista de Trabalho para ver as informações mais recentes sobre a execução de tarefas.

    • Estado da Tarefa (gráfico):

      O Estado da Tarefa descreve as fases da tarefa:

      Captura de ecrã que mostra as fases de tarefas do Azure Data Lake Analytics.

      • Preparação: carregue o script para a cloud, compilando e otimizando o script com o serviço de compilação.

      • Em fila: as tarefas são colocadas em fila quando estão à espera de recursos suficientes ou as tarefas excedem a limitação máxima de tarefas simultâneas por conta. A definição de prioridade determina a sequência de tarefas em fila - quanto menor for o número, maior será a prioridade.

      • Em execução: a tarefa está a ser executada na sua conta Data Lake Analytics.

      • Finalização: a tarefa está a ser concluída (por exemplo, a finalizar o ficheiro).

        A tarefa pode falhar em todas as fases. Por exemplo, erros de compilação na fase de preparação, erros de tempo limite na fase em fila e erros de execução na fase em execução, etc.

    • Informações Básicas

      As informações básicas da tarefa são apresentadas na parte inferior do painel Resumo da Tarefa.

      Captura de ecrã que mostra o Resumo da Tarefa com descrições nas caixas de texto.

      • Resultado da Tarefa: Com êxito ou com falha. A tarefa pode falhar em todas as fases.
      • Duração Total: Tempo do relógio de parede (duração) entre a hora de submissão e a hora de fim.
      • Tempo Total de Computação: a soma de cada tempo de execução de vértice, pode considerá-la como a hora em que a tarefa é executada apenas num vértice. Veja Total Vértices para obter mais informações sobre o vértice.
      • Submeter/Iniciar/Hora de Fim: a hora em que o serviço Data Lake Analytics recebe a submissão da tarefa/começa a executar a tarefa/termina a tarefa com êxito ou não.
      • Compilação/Em fila/Execução: tempo do relógio de parede despendido durante a fase Preparação/Fila/Execução.
      • Conta: a conta Data Lake Analytics utilizada para executar a tarefa.
      • Autor: o utilizador que submeteu a tarefa, pode ser uma conta de pessoa real ou uma conta de sistema.
      • Prioridade: a prioridade do trabalho. Quanto menor for o número, maior será a prioridade. Afeta apenas a sequência das tarefas na fila. Definir uma prioridade mais alta não impede a execução de tarefas.
      • Paralelismo: o número máximo pedido de Unidades de Data Lake Analytics do Azure (ADLAUs) simultâneas, também conhecido como vértices. Atualmente, um vértice é igual a uma VM com dois núcleos virtuais e uma RAM de seis GB, embora possa ser atualizado em futuras atualizações Data Lake Analytics.
      • Bytes Left: Bytes que precisam de ser processados até que a tarefa seja concluída.
      • Bytes lidos/escritos: Bytes que foram lidos/escritos desde que a tarefa começou a ser executada.
      • Total de vértices: a tarefa é dividida em muitas partes do trabalho, cada peça de trabalho é chamada de vértice. Este valor descreve o número de peças de trabalho que a tarefa consiste. Pode considerar um vértice como uma unidade de processo básica, também conhecida como Unidade de Data Lake Analytics do Azure (ADLAU) e os vértices podem ser executados em paralelismo.
      • Concluído/Em Execução/Com Falhas: a contagem de vértices concluídos/em execução/com falhas. Os vértices podem falhar devido a falhas no código do utilizador e no sistema, mas as repetições do sistema falharam automaticamente algumas vezes. Se o vértice continuar a falhar depois de tentar novamente, todo o trabalho falhará.
  • Gráfico de Tarefas

    Um script U-SQL representa a lógica de transformar dados de entrada em dados de saída. O script é compilado e otimizado para um plano de execução física na fase de Preparação. O Job Graph é para mostrar o plano de execução física. O diagrama seguinte ilustra o processo:

    Estado das fases de tarefas do Azure Data Lake Analytics

    Um trabalho é dividido em muitos pedaços de trabalho. Cada peça de trabalho é denominada Vértice. Os vértices são agrupados como Super Vértice (também conhecido como fase) e visualizados como Gráfico de Tarefas. Os cartazes de palco verde no gráfico de tarefas mostram os palcos.

    Cada vértice numa fase está a fazer o mesmo tipo de trabalho com diferentes partes dos mesmos dados. Por exemplo, se tiver um ficheiro com dados de um TB e existirem centenas de vértices a ler a partir do mesmo, cada um deles está a ler um segmento. Esses vértices são agrupados na mesma fase e fazem o mesmo trabalho em diferentes partes do mesmo ficheiro de entrada.

    • Informações de fase

      Numa fase específica, alguns números são apresentados no cartaz.

      Fase do gráfico de tarefas do Azure Data Lake Analytics

      • Extração SV1: o nome de uma fase, com o nome de um número e o método de operação.

      • 84 vértices: a contagem total de vértices nesta fase. A figura indica quantas peças de trabalho estão divididas nesta fase.

      • 12,90 s/vértice: o tempo médio de execução do vértice para esta fase. Este valor é calculado por SOMA (cada tempo de execução de vértices) /(contagem total de Vértices). O que significa que se puder atribuir todos os vértices executados em paralelismo, toda a fase será concluída em 12,90 s. Também significa que se todo o trabalho nesta fase for feito em série, o custo será #vertices * tempo AVG.

      • 850.895 linhas escritas: contagem total de linhas escrita nesta fase.

      • R/W: Quantidade de dados lidos/Escritos nesta fase em bytes.

      • Cores: as cores são utilizadas na fase para indicar um estado de vértice diferente.

        • Verde indica que o vértice foi bem-sucedido.
        • Laranja indica que o vértice foi repetido novamente. O vértice repetido falhou, mas é repetido automaticamente e com êxito pelo sistema e a fase geral é concluída com êxito. Se o vértice tiver repetido, mas continuar a falhar, a cor fica vermelha e todo o trabalho falhou.
        • Vermelho indica que falhou, o que significa que um determinado vértice foi repetido algumas vezes pelo sistema, mas mesmo assim falhou. Este cenário faz com que toda a tarefa falhe.
        • Azul significa que um determinado vértice está em execução.
        • Branco indica que o vértice está a Aguardar. O vértice pode estar à espera de ser agendado assim que uma ADLAU ficar disponível ou poderá estar à espera de entrada, uma vez que os dados de entrada poderão não estar prontos.

        Pode encontrar mais detalhes para a fase ao pairar o cursor do rato por um estado:

        Detalhes da fase do gráfico de tarefas do Azure Data Lake Analytics

    • Vértices: descreve os detalhes dos vértices, por exemplo, quantos vértices no total, quantos vértices foram concluídos, se falharam ou ainda estão em execução/espera, etc.

    • Pod de leitura cruzada/intra de dados: os ficheiros e os dados são armazenados em vários pods no sistema de ficheiros distribuído. O valor aqui descreve a quantidade de dados que foram lidos no mesmo pod ou em pod cruzado.

    • Tempo total de computação: a soma de cada tempo de execução de vértice na fase, pode considerá-lo como o tempo necessário se todo o trabalho na fase for executado apenas num vértice.

    • Dados e linhas escritos/lidos: indica a quantidade de dados ou linhas que foram lidos/escritos ou que precisam de ser lidos.

    • Falhas de leitura de vértices: descreve quantos vértices falharam durante a leitura dos dados.

    • Eliminações duplicadas de vértice: se um vértice for demasiado lento, o sistema poderá agendar vários vértices para executar a mesma parte do trabalho. Os vértices redundantes serão eliminados assim que um dos vértices for concluído com êxito. A eliminação de duplicados de vértice regista o número de vértices que são eliminados como duplicações na fase.

    • Revogações de vértice: o vértice foi bem-sucedido, mas será novamente executado mais tarde devido a alguns motivos. Por exemplo, se o vértice a jusante perder dados de entrada intermédios, pedirá ao vértice a montante que volte a ser executado.

    • Execuções de agendamento de vértices: o tempo total que os vértices foram agendados.

    • Os dados de Vértice Mín/Média/Máx. são lidos: o mínimo/média/máximo de cada vértice de leitura de dados.

    • Duração: a hora do relógio de parede que uma fase demora, tem de carregar o perfil para ver este valor.

    • Reprodução de Tarefa

      Data Lake Analytics executa tarefas e arquiva os vértices que executam as informações das tarefas, como quando os vértices são iniciados, parados, com falhas e como são repetidos, etc. Todas as informações são automaticamente registadas no arquivo de consultas e armazenadas no respetivo Perfil de Tarefa. Pode transferir o Perfil de Tarefa através de "Carregar Perfil" na Vista de Tarefa e pode ver a Reprodução de Tarefas depois de transferir o Perfil de Tarefa.

      A Reprodução de Tarefas é uma visualização epítome do que aconteceu no cluster. Ajuda-o a watch progresso da execução de trabalhos e a detetar visualmente anomalias de desempenho e estrangulamentos num curto espaço de tempo (normalmente menos de 30).

    • Visualização do Mapa Térmico da Tarefa

      O Mapa Térmico da Tarefa pode ser selecionado através da lista pendente Apresentação no Gráfico de Tarefas.

      Ecrã do mapa de área dinâmica para dados do gráfico de tarefas do Azure Data Lake Analytics

      Mostra o mapa térmico de E/S, tempo e débito de uma tarefa, através do qual pode encontrar onde a tarefa passa a maior parte do tempo, ou se o seu trabalho é um trabalho de limite de E/S, etc.

      Exemplo de mapa de área dinâmica para dados do gráfico de tarefas do Azure Data Lake Analytics

      • Progresso: O progresso da execução da tarefa, veja Informações em informações de fase.
      • Dados lidos/escritos: o mapa térmico do total de dados lidos/escritos em cada fase.
      • Tempo de computação: o mapa térmico de SUM (cada tempo de execução de vértice), pode considerar isto como quanto tempo demoraria se todo o trabalho na fase fosse executado com apenas um vértice.
      • Tempo médio de execução por nó: o mapa térmico de SOMA (cada tempo de execução de vértice) / (Número de Vértice). O que significa que se puder atribuir todos os vértices executados em paralelismo, todo o palco será feito neste período de tempo.
      • Débito de entrada/saída: o mapa térmico do débito de entrada/saída de cada fase, pode confirmar se a sua tarefa é uma tarefa vinculada a E/S através disto.
  • Operações de Metadados

    Pode realizar algumas operações de metadados no script U-SQL, como criar uma base de dados, remover uma tabela, etc. Estas operações são apresentadas na Operação de Metadados após a compilação. Pode encontrar asserções, criar entidades e remover entidades aqui.

    Operações de metadados da Vista de Trabalho do Azure Data Lake Analytics

  • Histórico de Estados

    O Histórico de Estados também é visualizado no Resumo da Tarefa, mas pode obter mais detalhes aqui. Pode encontrar as informações detalhadas, como quando a tarefa é preparada, em fila, iniciada em execução, terminada. Também pode descobrir quantas vezes a tarefa foi compilada (os CcsAttempts: 1), quando é que a tarefa é realmente enviada para o cluster (Detalhe: Enviar tarefa para o cluster), etc.

    Histórico de estados da Vista de Trabalho do Azure Data Lake Analytics

  • Diagnóstico

    A ferramenta diagnostica a execução de tarefas automaticamente. Receberá alertas quando existirem alguns erros ou problemas de desempenho nas suas tarefas. Tenha em atenção que tem de transferir o Perfil para obter informações completas aqui.

    Diagnósticos da Vista de Trabalho do Azure Data Lake Analytics

    • Avisos: é apresentado um alerta aqui com um aviso do compilador. Pode selecionar a ligação "x issue(s)" para ter mais detalhes assim que o alerta for apresentado.
    • O vértice é demasiado longo: se algum vértice ficar sem tempo (por exemplo, 5 horas), os problemas serão encontrados aqui.
    • Utilização de recursos: se tiver alocado mais ou menos Paralelismo suficiente do que o necessário, os problemas serão encontrados aqui. Também pode selecionar Utilização de recursos para ver mais detalhes e realizar cenários de hipóteses para encontrar uma melhor alocação de recursos (para obter mais detalhes, veja este guia).
    • Verificação de memória: se algum vértice utilizar mais de 5 GB de memória, os problemas serão encontrados aqui. A execução da tarefa pode ser eliminada pelo sistema se utilizar mais memória do que a limitação do sistema.

Detalhes da Tarefa

Detalhes da Tarefa mostra as informações detalhadas da tarefa, incluindo Script, Recursos e Vista de Execução de Vértice.

Detalhes da tarefa do Azure Data Lake Analytics

  • Script

    O script U-SQL da tarefa é armazenado no arquivo de consultas. Pode ver o script U-SQL original e submetê-lo novamente, se necessário.

  • Recursos

    Pode encontrar as saídas de compilação de tarefas armazenadas no arquivo de consultas através de Recursos. Por exemplo, pode encontrar "algebra.xml" que é utilizado para mostrar o Gráfico de Tarefas, as assemblagens que registou, etc. aqui.

  • Vista de execução de vértice

    Mostra os detalhes de execução dos vértices. O Perfil de Tarefa arquiva todos os registos de execução de vértices, tais como o total de dados lidos/escritos, runtime, estado, etc. Através desta vista, pode obter mais detalhes sobre como uma tarefa foi executada. Para obter mais informações, veja Utilizar a Vista de Execução de Vértice nas Ferramentas do Data Lake para Visual Studio.

Passos Seguintes