패키지 리포지토리에서 라이브러리 설치

Azure Databricks는 PyPI, Maven 및 CRAN 패키지 리포지토리에서 라이브러리를 설치하는 도구를 제공합니다. 전체 라이브러리 호환성 세부 정보는 클러스터 범위 라이브러리를 참조하세요.

Important

Databricks Runtime 14.3 LTS 이하를 사용하는 경우 DBFS에서 라이브러리를 설치할 수 있습니다. 그러나 모든 작업 영역 사용자는 DBFS에 저장된 라이브러리 파일을 수정할 수 있습니다. Azure Databricks 작업 영역에서 라이브러리의 보안을 강화하기 위해 DBFS 루트에 라이브러리 파일을 저장하는 것은 기본적으로 Databricks Runtime 15.0 이상에서 사용되지 않으며 비활성화됩니다. DBFS 루트에 라이브러리 저장이 사용되지 않고 기본적으로 사용하지 않도록 설정됨을 참조하세요.

대신 Databricks 는 Python 라이브러리, JAR 파일 및 Spark 커넥터를 포함한 모든 라이브러리를 작업 영역 파일 또는 Unity 카탈로그 볼륨에 업로드하거나 라이브러리 패키지 리포지토리를 사용하는 것이 좋습니다 . 워크로드가 이러한 패턴을 지원하지 않는 경우 클라우드 개체 스토리지에 저장된 라이브러리를 사용할 수도 있습니다.

PyPi 패키지

  1. 라이브러리 원본 단추 목록에서 PyPI를 선택합니다.

  2. PyPI 패키지 이름을 입력합니다. 특정 버전의 라이브러리를 설치하려면 라이브러리에 다음 형식을 <library>==<version>사용합니다. 예들 들어 scikit-learn==0.19.1입니다.

    참고 항목

    작업의 경우 Databricks는 재현 가능한 환경을 보장하기 위해 라이브러리 버전을 지정하는 것이 좋습니다. 라이브러리 버전이 완전히 지정되지 않은 경우 Databricks는 일치하는 최신 버전을 사용합니다. 즉, 동일한 작업의 다른 실행은 새 버전이 게시될 때 서로 다른 라이브러리 버전을 사용할 수 있습니다. 라이브러리 버전을 지정하면 라이브러리의 새로운 호환성이 손상되는 변경으로 인해 작업이 중단되지 않습니다.

  3. (선택 사항) 인덱스 URL 필드에 PyPI 인덱스 URL을 입력합니다.

  4. 설치를 클릭합니다.

Maven 또는 Spark 패키지

Important

공유 액세스 모드로 구성된 컴퓨팅에 Maven 라이브러리를 설치하려면 허용 목록에 좌표를 추가해야 합니다. 공유 컴퓨팅의 허용 목록 라이브러리 및 초기화 스크립트를 참조 하세요.

Important

DBR 14.3 LTS 이하의 경우 Databricks는 Apache Ivy 2.4.0을 사용하여 Maven 패키지를 확인합니다. DBR 15.0 이상의 경우 Databricks는 Ivy 2.5.1 이상을 사용하며 특정 아이비 버전은 Databricks 런타임 릴리스 정보 버전 및 호환성에 나열됩니다.

Maven 패키지의 설치 순서는 라이브러리가 로드되는 순서에 영향을 줄 수 있는 최종 종속성 트리에 영향을 줄 수 있습니다.

  1. 라이브러리 원본 단추 목록에서 Maven을 선택합니다.

  2. Maven 좌표를 지정합니다. 다음 중 하나를 수행합니다.

    • 좌표 필드에 설치할 라이브러리의 Maven 좌표를 입력합니다. Maven 좌표는 groupId:artifactId:version 형식입니다. 예: com.databricks:spark-avro_2.10:1.0.0.
    • 정확한 좌표를 모르는 경우 라이브러리 이름을 입력하고 패키지 검색을 클릭합니다. 일치하는 패키지 목록이 표시됩니다. 패키지에 대한 세부 정보를 표시하려면 해당 이름을 클릭합니다. 이름, 조직 및 등급별로 패키지를 정렬할 수 있습니다. 쿼리 창에 쿼리를 작성하여 결과를 필터링할 수도 있습니다. 결과가 자동으로 새로 고쳐집니다.
      1. 왼쪽 상단의 드롭다운 목록에서 Maven Central 또는 Spark 패키지를 선택합니다.
      2. 선택적으로 릴리스 열에서 패키지 버전을 선택합니다.
      3. 패키지 옆에 있는 + 선택을 클릭합니다. 좌표 필드는 선택한 패키지 및 버전으로 채워집니다.
  3. (선택 사항) 리포지토리 필드에서 Maven 리포지토리 URL을 입력할 수 있습니다.

    참고 항목

    내부 Maven 리포지토리는 지원되지 않습니다.

  4. 제외 필드에서 제외하려는 종속성 및 artifactId 종속성을 선택적으로 제공합니다groupId(예: log4j:log4j).

    참고 항목

    Maven은 가장 가까운 루트 버전을 사용하여 작동하며, 종속성이 다른 버전에 대해 경쟁하는 두 패키지의 경우 순서가 중요하므로 이전 종속성이 있는 패키지가 먼저 로드될 때 실패할 수 있습니다.

    이 작업을 수행하려면 충돌하는 라이브러리를 제외합니다. 예를 들어 좌표com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22로 패키지를 설치할 때 MSAL4J의 eventhubs 최신 버전이 로드되고 eventhubs 종속성이 충족되도록 제외 필드를 com.nimbusds:oauth2-oidc-sdk:RELEASE 설정합니다.

  5. 설치를 클릭합니다.

CRAN 패키지

  1. 라이브러리 원본 단추 목록에서 CRAN을 선택합니다.
  2. 패키지 필드에 패키지 이름을 입력합니다.
  3. (선택 사항) 리포지토리 필드에서 CRAN 리포지토리 URL을 입력할 수 있습니다.
  4. Install을 클릭합니다.

참고 항목

CRAN 미러는 최신 버전의 라이브러리를 제공합니다. 결과적으로 다른 시간에 다른 클러스터에 라이브러리를 연결하면 다른 버전의 R 패키지로 끝날 수 있습니다. Databricks에서 R 패키지 버전을 관리하고 수정하는 방법을 알아보려면 기술 자료를 참조하세요.