Partilhar via


Acionar tarefas quando chegam novos ficheiros

Você pode usar gatilhos de chegada de arquivo para disparar uma execução do seu trabalho do Azure Databricks quando novos arquivos chegam em um local externo, como Amazon S3, armazenamento do Azure ou Google Cloud Storage. Pode utilizar esta funcionalidade quando uma tarefa programada pode ser ineficiente porque os novos dados chegam num horário irregular.

Os gatilhos de chegada de arquivos fazem um esforço melhor para verificar se há novos arquivos a cada minuto, embora isso possa ser afetado pelo desempenho do armazenamento em nuvem subjacente. Os gatilhos de chegada de arquivos não incorrem em custos adicionais, além dos custos do provedor de nuvem associados à listagem de arquivos no local de armazenamento.

Um gatilho de chegada de arquivo pode ser configurado para monitorar a raiz de um local ou volume externo do Catálogo Unity ou um subcaminho de um local ou volume externo. Por exemplo, para o volume /Volumes/mycatalog/myschema/myvolume/raiz do Unity Catalog , os caminhos a seguir são válidos para um gatilho de chegada de arquivo:

/Volumes/mycatalog/myschema/myvolume/
/Volumes/mycatalog/myschema/myvolume/mydirectory/

Requisitos

O seguinte é necessário para usar gatilhos de chegada de arquivo:

Limitações

  • Um máximo de cinquenta trabalhos pode ser configurado com um gatilho de chegada de arquivo em um espaço de trabalho do Azure Databricks.
  • Um local de armazenamento configurado para um gatilho de chegada de arquivo pode conter apenas até 10.000 arquivos. Locais com mais arquivos não podem ser monitorados para novas chegadas de arquivos. Se o local de armazenamento configurado for um subcaminho de um local ou volume externo do Catálogo Unity, o limite de 10.000 arquivos se aplicará ao subcaminho e não à raiz do local de armazenamento. Por exemplo, a raiz do local de armazenamento pode conter mais de 10.000 arquivos em seus subdiretórios, mas o subdiretório configurado não deve exceder o limite de 10.000 arquivos.
  • O caminho utilizado para um acionador de chegada de ficheiros não deve conter quaisquer tabelas externas ou localizações geridas de catálogos e esquemas.

Adicionar um gatilho de chegada de arquivo

Para adicionar um gatilho de chegada de arquivo a um trabalho:

  1. Na barra lateral, clique em Fluxos de trabalho.
  2. Na coluna Nome na guia Trabalhos, clique no nome do trabalho.
  3. No painel Detalhes do trabalho à direita, clique em Adicionar gatilho.
  4. Em Tipo de gatilho, selecione Chegada de arquivo.
  5. Em Local de armazenamento, insira a URL da raiz ou de um subcaminho de um local externo do Catálogo Unity ou a raiz ou um subcaminho de um volume do Catálogo Unity a ser monitorado.
  6. (Opcional) Configure opções avançadas:
    • Tempo mínimo entre gatilhos em segundos: o tempo mínimo de espera para acionar uma execução após a conclusão de uma execução anterior. Os arquivos que chegam nesse período acionam uma execução somente depois que o tempo de espera expira. Use essa configuração para controlar a frequência de criação de execução.
    • Aguarde após a última alteração em segundos: o tempo de espera para acionar uma execução após a chegada do arquivo. Outra chegada de arquivo neste período redefine o temporizador. Essa configuração pode ser usada quando os arquivos chegam em lotes, e todo o lote precisa ser processado depois que todos os arquivos chegarem.
  7. Para validar a configuração, clique em Testar conexão.
  8. Clique em Guardar.

Receber notificações de acionadores de chegada de ficheiros com falhas

Para receber notificações se um acionador de chegada de ficheiros falhar na avaliação, configure notificações de destino por e-mail ou do sistema sobre falhas nas tarefas. Consulte Adicionar notificações por e-mail e do sistema para eventos de trabalho.