2019년 7월

이러한 기능 및 Azure Databricks 플랫폼 개선 사항은 2019년 7월에 릴리스되었습니다.

참고 항목

릴리스가 준비되었습니다. Azure Databricks 계정은 최초 릴리스 날짜 이후 최대 일주일까지 업데이트되지 않을 수 있습니다.

출시 예정: Databricks 6.0은 Python 2를 지원하지 않습니다.

2020년에 발표된 Python 2의 향후 수명이 종료될 것으로 예상되며, Databricks Runtime 6.0에서는 Python 2가 지원되지 않습니다. 이전 버전의 Databricks Runtime은 Python 2를 계속 지원합니다. Databricks Runtime 6.0은 2019년 말에 릴리스될 예정입니다.

풀 유휴 인스턴스에서 Databricks 런타임 버전 미리 로드

2019년 7월 30일 - 8월 6일: 버전 2.103

이제 풀의 유휴 인스턴스에 로드할 Databricks Runtime 버전을 선택하여 풀 지원 클러스터 시작 속도를 높일 수 있습니다. 풀 UI의 필드를 미리 로드된 Spark 버전이라고 합니다.

Preloaded Spark version

사용자 지정 클러스터 태그와 풀 태그가 모두 더 효율적으로 재생됨

2019년 7월 30일 - 8월 6일: 버전 2.103

이달 초, Azure Databricks는 클러스터를 빠르게 스핀업하는 데 도움이 되는 유휴 인스턴스 세트인 풀을 도입했습니다. 원래 릴리스에서 풀 지원 클러스터는 풀 구성에서 기본 및 사용자 지정 태그를 상속했으며 클러스터 수준에서 이러한 태그를 수정할 수 없습니다. 이제 풀 지원 클러스터와 관련된 사용자 지정 태그를 구성할 수 있으며, 해당 클러스터는 풀에서 상속되거나 해당 클러스터에 할당되었는지 여부에 관계없이 모든 사용자 지정 태그를 적용합니다. 풀에서 상속된 사용자 지정 태그와 동일한 키 이름을 가진 클러스터별 사용자 지정 태그를 추가할 수 없습니다(즉, 풀에서 상속된 사용자 지정 태그를 재정의할 수 없음). 자세한 내용은 풀 태그를 참조하세요.

MLflow 1.1은 몇 가지 UI 및 API 개선 사항을 제공합니다.

2019년 7월 30일 - 8월 6일: 버전 2.103

MLflow 1.1에는 UI 및 API 유용성을 개선하기 위한 몇 가지 새로운 기능이 도입되었습니다.

  • 이제 실행 개요 UI에서 실행 수가 100을 초과하는 경우 여러 실행 페이지를 탐색할 수 있습니다. 100번째 실행 후 추가 로드 단추를 클릭하여 다음 100개의 실행을 로드합니다.

    Paged runs

  • 비교 실행 UI는 이제 병렬 좌표 플롯을 제공합니다. 플롯을 사용하면 n차원 매개 변수 세트와 메트릭 간의 관계를 관찰할 수 있습니다. 모든 실행을 메트릭 값(예: 정확도)에 따라 색으로 구분된 줄로 시각화하고 각 실행이 수행한 매개 변수 값을 표시합니다.

    Parallel coordinates plot

  • 이제 실행 개요 UI에서 태그를 추가 및 편집하고 실험 검색 보기에서 태그를 볼 수 있습니다.

  • MLflowContext API를 사용하면 Python API와 유사한 방식으로 실행을 만들고 로그할 수 있습니다. 이 API는 REST API를 래핑하는 기존 하위 수준 MlflowClient API와 대조됩니다.

  • 이제 DeleteTag API를 사용하여 MLflow 실행에서 태그를 삭제할 수 있습니다.

자세한 내용은 MLflow 1.1 블로그 게시물을 참조하세요. 기능 및 수정의 전체 목록은 MLflow Changelog참조하세요.

pandas DataFrame 표시가 Jupyter에서와 같이 렌더링됨

2019년 7월 30일 - 8월 6일: 버전 2.103

이제 pandas DataFrame을 호출하면 Jupyter에서와 동일한 방식으로 렌더링됩니다.

Display pandas DataFrame

새 지역

2019년 7월 30일

이제 다음과 같은 추가 지역에서 Azure Databricks를 사용할 수 있습니다.

  • 한국 중부
  • 남아프리카 공화국 북부

Databricks Runtime 5.5 with Conda(베타)

2019년 7월 23일

Important

Databricks Runtime(Conda 포함)은 베타에 있습니다. 지원되는 환경의 내용은 향후 베타 릴리스에서 변경될 수 있습니다. 변경 내용에는 패키지 목록 또는 설치된 패키지 버전이 포함될 수 있습니다. Conda를 사용하는 Databricks Runtime 5.5는 Databricks Runtime 5.5 LTS(지원되지 않음)를 기반으로 빌드됩니다.

Conda가 포함된 Databricks Runtime 5.5 릴리스는 YAML 사양으로 Notebook의 Conda 환경 업데이트를 지원하는 새 Notebook 범위 라이브러리 API를 추가합니다(Conda 설명서 참조).

Conda를 사용하는 Databricks Runtime 5.5(지원되지 않음)의 전체 릴리스 정보를 참조하세요.

메타스토어 연결 제한이 업데이트됨

2019년 7월 16~23일: 버전 2.102

eastus, eastus2, centralus, westus, westus2, westeurope, northeurope의 새 Azure Databricks 작업 영역에는 메타스토어 연결 제한이 250개로 더 높습니다. 기존 작업 영역은 중단 없이 현재 메타스토어를 계속 사용하고 연결 제한은 100개입니다.

풀에 대한 권한 설정(공개 미리 보기)

2019년 7월 16~23일: 버전 2.102

이제 풀 UI는 풀을 관리할 수 있는 사용자와 풀에 클러스터를 연결할 수 있는 사용자에 대한 권한 설정을 지원합니다.

자세한 내용은 풀 권한을 참조 하세요.

Machine Learning용 Databricks Runtime 5.5

2019년 7월 15일

Databricks Runtime 5.5 ML은 Databricks Runtime 5.5 LTS(지원되지 않음)를 기반으로 빌드됩니다. TensorFlow, PyTorch, Keras 및 XGBoost를 비롯한 많은 자주 사용되는 기계 학습 라이브러리가 포함되어 있으며 Horovod를 사용하여 분산 TensorFlow 학습을 제공합니다.

이 릴리스에는 다음과 같은 새로운 기능 및 향상된 기능이 포함되어 있습니다.

  • MLflow 1.0 Python 패키지 추가
  • 업그레이드된 기계 학습 라이브러리
    • Tensorflow가 1.12.0에서 1.13.1로 업그레이드됨
    • PyTorch가 0.4.1에서 1.1.0으로 업그레이드됨
    • scikit-learn이 0.19.1에서 0.20.3으로 업그레이드됨
  • HorovodRunner에 대한 단일 노드 작업

자세한 내용은 ML용 Databricks Runtime 5.5 LTS(지원되지 않음)를 참조하세요.

Databricks Runtime 5.5

2019년 7월 15일

이제 Databricks Runtime 5.5를 사용할 수 있습니다. Databricks Runtime 5.5에는 Apache Spark 2.4.3, 업그레이드된 Python, R, Java 및 Scala 라이브러리와 다음과 같은 새로운 기능이 포함됩니다.

  • Azure Databricks의 Delta Lake 자동 최적화 GA
  • Azure Databricks의 Delta Lake는 최소, 최대 및 개수 집계 쿼리 성능을 개선했습니다.
  • 개선된 이진 파일 데이터 원본 및 스칼라 반복자 pandas UDF(공개 미리 보기)로 더 빠른 모델 유추 파이프라인
  • R Notebook의 비밀 API

자세한 내용은 Databricks Runtime 5.5 LTS(지원되지 않음)를 참조하세요.

빠른 클러스터 시작을 위해 인스턴스 풀을 대기 상태로 유지(공개 미리 보기)

2019년 7월 9~11일: 버전 2.101

클러스터 시작 시간을 줄이기 위해 Azure Databricks는 이제 미리 정의된 유휴 인스턴스 풀에 클러스터 연결을 지원합니다. 풀에 연결된 경우 클러스터는 풀에서 해당 드라이버 및 작업자 노드를 할당합니다. 풀에 클러스터의 요청을 수용할 수 있는 유휴 리소스가 충분하지 않으면 클라우드 공급자로부터 새 인스턴스를 할당하여 풀이 확장됩니다. 연결된 클러스터가 종료되면 사용된 인스턴스가 풀로 반환되고 다른 클러스터에서 다시 사용할 수 있습니다.

인스턴스가 풀에서 유휴 상태일 때에는 Azure Databricks에서 DBU에 대한 요금이 부과되지 않습니다. 인스턴스 공급자 요금이 적용됩니다. 가격 책정을 참조하세요.

자세한 내용은 풀 구성 참조를 참조하세요.

Ganglia 메트릭

2019년 7월 9~11일: 버전 2.101

Ganglia는 이제 Azure Databricks 클러스터에서 사용할 수 있는 확장 가능한 분산 모니터링 시스템입니다. Ganglia 메트릭은 클러스터 성능 및 상태를 모니터링하는 데 도움이 됩니다. 클러스터 세부 정보 페이지에서 Ganglia 메트릭에 액세스할 수 있습니다.

Ganglia Metrics tab

메트릭 사용 및 구성에 대한 자세한 내용은 Ganglia 메트릭을 참조 하세요.

글로벌 계열 색

2019년 7월 9~11일: 버전 2.101

이제 Notebook의 모든 차트에서 계열의 색이 일관되도록 지정할 수 있습니다. 차트 간 색 일관성을 참조하세요.

Global series color