Azure Databricks 작업에 대한 설정 구성

이 문서에서는 작업 UI에서 Azure Databricks 작업 및 개별 작업 작업을 구성하는 방법에 대한 세부 정보를 제공합니다. Databricks CLI를 사용하여 작업 설정을 편집하는 방법을 알아보려면 CLI 명령을 databricks jobs update -h실행합니다. 작업 API 사용에 대한 자세한 내용은 작업 API참조하세요.

일부 구성 옵션은 작업에서 사용할 수 있고, 다른 옵션은 개별 태스크에서 사용할 수 있습니다. 예를 들어 최대 동시 실행은 작업에서만 설정할 수 있지만 재시도 정책은 각 작업에 대해 정의됩니다.

작업 편집

작업에 대한 구성을 변경하려면,

  1. 사이드바에서 워크플로를 클릭합니다워크플로 아이콘.
  2. 이름 열에서 작업 이름을 클릭합니다.

측면 패널에 작업 세부 정보가 표시됩니다. 작업, 컴퓨팅 구성, 알림, 최대 동시 실행 수에 대한 트리거를 변경하고, 기간 임계값을 구성하고, 태그를 추가하거나 변경할 수 있습니다. 작업 액세스 제어가 사용하도록 설정된 경우 작업 권한을 편집할 수도 있습니다.

모든 작업 작업에 대한 매개 변수 추가

키워드(keyword) 인수를 허용하도록 구성된 Python 휠 파일을 포함하여 키-값 매개 변수를 허용하는 작업의 태스크에 전달되는 작업에 대한 매개 변수를 구성할 수 있습니다. 작업 수준에서 설정된 매개 변수는 구성된 작업 수준 매개 변수에 추가됩니다. 태스크에 전달된 작업 매개 변수는 태스크 구성에서 태스크에 구성된 매개 변수와 함께 표시됩니다.

작업 매개 변수를 키-값 매개 변수(Spark Submit예: 작업)로 JAR 구성되지 않은 작업에 전달할 수도 있습니다. 이러한 작업에 작업 매개 변수를 전달하려면 인수{{job.parameters.[name]}}의 형식을 매개 변수를 key 식별하는 인수로 바꿉 [name] 니다.

작업 매개 변수는 작업 매개 변수보다 우선합니다. 작업 매개 변수와 작업 매개 변수의 키가 같으면 작업 매개 변수가 작업 매개 변수를 재정의합니다.

다른 매개 변수를 사용하여 작업을 실행하거나 작업 실행을 복구할 때 구성된 작업 매개 변수를 재정의하거나 새 작업 매개 변수를 추가할 수 있습니다.

동적 값 참조 집합 을 사용하여 작업 및 작업에 대한 컨텍스트를 공유할 수도 있습니다.

작업 매개 변수를 추가하려면 작업 세부 정보 쪽 패널에서 매개 변수 편집을 클릭하고 각 매개 변수의 키와 기본값을 지정합니다. 사용 가능한 동적 값 참조 목록을 보려면 동적 값 찾아보기를 클릭합니다.

작업에 태그 추가

작업에 레이블 또는 키:값 특성을 추가하려면 작업을 편집할 때 태그를 추가하면 됩니다. 태그를 사용하여 작업 목록에서 작업을 필터링할 수 있습니다. 예를 들어 department 태그를 사용하여 특정 부서에 속한 모든 작업을 필터링할 수 있습니다.

참고 항목

작업 태그는 개인 식별 정보 또는 암호와 같은 중요한 정보를 저장하도록 설계되지 않았기 때문에 Databricks는 중요하지 않은 값에만 태그를 사용하는 것이 좋습니다.

또한 태그는 작업을 실행할 때 생성된 작업 클러스터에 전파되므로 기존 클러스터 모니터링에서 태그를 사용할 수 있습니다.

태그를 추가하거나 편집하려면 작업 세부 정보 쪽 패널에서 + 태그를 클릭합니다. 태그를 키와 값 또는 레이블로 추가할 수 있습니다. 레이블을 추가하려면 필드에 레이블을 입력하고 필드를 비워 둡니다.

공유 클러스터 구성

클러스터와 연결된 작업을 보려면 작업 탭을 클릭하고 측면 패널에서 클러스터를 마우스로 가리킵니다. 연결된 모든 태스크에 대한 ​​클러스터 구성을 변경하려면 클러스터 아래에서 구성을 클릭합니다. 연결된 모든 태스크에 대해 새 클러스터를 구성하려면 클러스터 아래에서 교환을 클릭합니다.

작업에 대한 액세스 제어

작업 액세스 제어를 사용하면 작업 소유자와 관리자가 해당 작업에 대한 세분화된 권한을 부여할 수 있습니다. 작업 소유자는 작업 결과를 볼 수 있는 다른 사용자 또는 그룹을 선택할 수 있습니다. 소유자는 작업 실행을 관리할 수 있는 사용자를 선택할 수도 있습니다(지금 실행 및 실행 취소 권한).

작업 권한 수준에 대한 자세한 내용은 작업 ACL을 참조 하세요.

작업에 대한 사용 권한을 관리하려면 CAN MANAGE 또는 IS OWNER 권한이 있어야 합니다.

  1. 사이드바에서 작업 실행을 클릭합니다.

  2. 작업 이름을 클릭합니다.

  3. 작업 세부 정보 패널에서 권한 편집을 클릭합니다.

  4. 사용 권한 설정 사용자, 그룹 또는 서비스 주체 선택... 드롭다운 메뉴를 클릭하고 사용자, 그룹 또는 서비스 주체를 선택합니다.

    권한 설정 대화 상자

  5. 추가를 클릭합니다.

  6. 저장을 클릭합니다.

작업 소유자 관리

기본적으로 작업 작성자는 IS OWNER 권한이 있으며 작업의 실행 설정에 있는 사용자입니다. 실행 설정에서 사용자의 ID로 작업이 실행됩니다. 실행 설정에 대한 자세한 내용은 서비스 주체로 작업 실행을 참조하세요.

작업 영역 관리자는 작업 소유자를 스스로 변경할 수 있습니다. 소유권이 양도되면 이전 소유자에게 CAN MANAGE 권한이 부여됩니다.

참고 항목

작업 영역의 RestrictWorkspaceAdmins 설정이 설정 ALLOW ALL되면 작업 영역 관리자는 작업 영역의 모든 사용자 또는 서비스 주체로 작업 소유자를 변경할 수 있습니다. 작업 영역 관리자가 작업 소유자만 변경하도록 제한하려면 작업 영역 관리자 제한(Restrict Workspace Admins)을 참조 하세요.

최대 동시 실행 구성

고급 설정에서 동시 실행 편집을 클릭하여 이 작업에 대한 최대 병렬 실행 수를 설정합니다. 새 실행을 시작하려고 할 때 작업이 이미 최대 활성 실행 수에 도달한 경우 Azure Databricks에서 실행을 건너뜁니다. 동일한 작업의 여러 실행을 동시에 수행하려면 이 값을 기본값인 1보다 높게 설정합니다. 예를 들어 빈번한 일정에 따라 작업을 트리거하고 연속 실행이 서로 겹치도록 허용하거나 입력 매개 변수와 다른 여러 실행을 트리거하려는 경우에 유용합니다.

작업 실행 큐 사용

동시성 제한으로 인해 즉시 실행할 수 없는 경우 나중에 실행할 수 있도록 작업 실행을 큐에 배치하려면 고급 설정에서 토글을 클릭합니다. 동시성 제한으로 인해 작업을 실행할 수 없으면 어떻게 해야 합니까?

참고 항목

큐는 2024년 4월 15일 이후에 UI를 통해 생성된 작업에 대해 기본적으로 사용하도록 설정됩니다.

예상 완료 시간 또는 작업에 대한 시간 제한 구성

작업의 예상 완료 시간 및 작업에 대한 최대 완료 시간을 포함하여 작업에 대한 선택적 기간 임계값을 구성할 수 있습니다. 기간 임계값을 구성하려면 기간 임계값 설정을 클릭합니다.

작업에 대한 예상 완료 시간을 구성하려면 경고 필드에 예상 기간을 입력합니다. 작업이 이 임계값을 초과하는 경우 실행 속도가 느린 작업에 대한 알림을 구성할 수 있습니다. 느린 실행 또는 지연 작업에 대한 알림 구성을 참조하세요.

작업에 대한 최대 완료 시간을 구성하려면 제한 시간 필드에 최대 기간을 입력합니다. 이 시간에 작업이 완료되지 않으면 Azure Databricks는 상태 "시간 초과"로 설정하고 작업이 중지됩니다.

태스크 편집

태스크 구성 옵션을 설정하려면,

  1. 사이드바에서 워크플로를 클릭합니다워크플로 아이콘.
  2. 이름 열에서 작업 이름을 클릭합니다.
  3. 작업 탭을 클릭하고 편집할 작업을 선택합니다.

작업 종속성 정의

드롭다운 메뉴의 의존도를 사용하여 작업에서 태스크 실행 순서를 정의할 수 있습니다 . 이 필드를 작업에 있는 하나 이상의 태스크로 설정할 수 있습니다.

태스크 종속성 편집

참고 항목

작업이 하나의 작업으로만 구성된 경우에는 Depends가 표시되지 않습니다.

태스크 종속성을 구성하면 태스크 실행의 DAG(방향성 비순환 그래프)가 만들어집니다. 이는 작업 스케줄러에서 실행 순서를 나타내는 일반적인 방법입니다. 예를 들어 4개의 태스크로 구성된 다음 작업을 가정합니다.

태스크 종속성 예제 다이어그램

  • 태스크 1은 루트 태스크이며 다른 태스크에 종속되지 않습니다.
  • 태스크 2 및 태스크 3은 먼저 완료하는 태스크 1에 따라 달라집니다.
  • 마지막으로 태스크 4는 성공적으로 완료되는 태스크 2 및 태스크 3에 따라 달라집니다.

Azure Databricks는 다운스트림 태스크를 실행하기 전에 업스트림 태스크를 실행하여 최대한 많은 태스크를 병렬로 실행합니다. 다음 다이어그램에서는 이러한 태스크에 대한 처리 순서를 보여 줍니다.

태스크 종속성 예제 흐름

작업에 대한 클러스터 구성

태스크가 실행되는 클러스터를 구성하려면 클러스터 드롭다운 메뉴를 클릭합니다. 공유 작업 클러스터를 편집할 수 있지만 다른 작업에서 공유 클러스터를 계속 사용하는 경우 공유 클러스터를 삭제할 수 없습니다.

작업을 실행하도록 클러스터를 선택하고 구성하는 방법에 대한 자세한 내용은 작업과 함께 Azure Databricks 컴퓨팅 사용을 참조하세요.

종속 라이브러리 구성

종속 라이브러리는 태스크가 실행되기 전에 클러스터에 설치됩니다. 실행이 시작되기 전에 설치되도록 모든 태스크 종속성을 설정해야 합니다. 종속성을 지정하기 위한 라이브러리 종속성 관리의 권장 사항을 따릅니다.

예상 완료 시간 또는 작업에 대한 시간 제한 구성

작업의 예상 완료 시간 및 작업에 대한 최대 완료 시간을 포함하여 작업에 대한 선택적 기간 임계값을 구성할 수 있습니다. 기간 임계값을 구성하려면 기간 임계값을 클릭합니다.

작업의 예상 완료 시간을 구성하려면 경고 필드에 기간을 입력합니다. 태스크가 이 임계값을 초과하면 이벤트가 트리거됩니다. 이 이벤트를 사용하여 작업이 느리게 실행되는 경우 알릴 수 있습니다. 느린 실행 또는 지연 작업에 대한 알림 구성을 참조하세요.

작업에 대한 최대 완료 시간을 구성하려면 제한 시간 필드에 최대 기간을 입력합니다. 이 시간 동안 작업이 완료되지 않으면 Azure Databricks는 상태 "시간 초과"로 설정합니다.

작업에 대한 재시도 정책 구성

실패한 작업 실행이 다시 시도되는 시기와 횟수를 결정하는 정책을 구성하려면 다시 시도 옆에 있는 + 추가클릭합니다. 다시 시도 간격은 실패한 실행 시작과 후속 다시 시도 실행 사이의 밀리초 단위로 계산됩니다.

참고 항목

시간 제한다시 시도를 모두 구성하는 경우 시간 제한이 각 다시 시도에 적용됩니다.