2020년 5월

이러한 기능 및 Azure Databricks 플랫폼 개선 사항은 2020년 5월에 릴리스되었습니다.

참고 항목

릴리스가 준비되었습니다. Azure Databricks 계정은 최초 릴리스 날짜 이후 최대 일주일까지 업데이트되지 않을 수 있습니다.

Easv4 시리즈 VM(베타)

2020년 5월 29일

Azure Databricks는 이제 프리미엄 SSD를 사용하고 최대 주파수 3.35GHz를 달성할 수 있는 Easv4 시리즈 VM에 대한 베타 지원을 제공합니다. 이러한 인스턴스 유형은 메모리 집약적인 엔터프라이즈 애플리케이션에 대한 워크로드 성능을 최적화할 수 있습니다.

Genomics GA용 Databricks Runtime 6.6

2020년 5월 26일

Genomics용 Databricks Runtime 6.6은 Databricks Runtime 6.6을 기반으로 빌드되었으며 다음과 같은 새로운 기능을 포함합니다.

  • GFF3 판독기
  • 사용자 지정 참조 게놈 지원
  • 샘플별 파이프라인 시간 제한
  • BAM 내보내기 옵션
  • 매니페스트 Blob

Databricks Runtime 6.6 ML GA

2020년 5월 26일

Databricks Runtime 6.6 ML은 Databricks Runtime 6.6을 기반으로 빌드되었으며 다음과 같은 새로운 기능을 포함합니다.

  • 업그레이드된 mlflow: 1.7.0에서 1.8.0으로

자세한 내용은 전체 Databricks Runtime 6.6 ML(지원되지 않는) 릴리스 정보를 참조하세요.

Databricks Runtime 6.6 GA

2020년 5월 26일

Databricks Runtime 6.6은 다음과 같은 Delta Lake 기능을 포함하여 많은 라이브러리 업그레이드 및 새로운 기능을 제공합니다.

  • 이제 merge 작업을 통해 테이블의 스키마를 자동으로 발전시킬 수 있습니다. 이는 변경 데이터를 테이블로 upsert하고 데이터의 스키마가 시간이 지남에 따라 변경되는 시나리오에서 유용합니다. upsert하기 전에 스키마 변경 내용을 검색하고 적용하는 대신 merge는 스키마를 발전시키는 동시에 변경 내용을 upsert할 수 있습니다. Delta Lake 병합을 위한 자동 스키마 진화를 참조하세요.
  • 일치하는 절만 있는 병합 작업 즉 updatedelete 작업만 있고 insert 작업이 없는 병합 작업의 성능이 향상되었습니다.
  • Hive 메타스토어에서 참조되는 Parquet 테이블은 이제 CONVERT TO DELTA를 사용하는 테이블 식별자를 통해 Delta Lake로 변환할 수 있습니다.

자세한 내용은 전체 Databricks Runtime 6.6(지원되지 않는) 릴리스 정보를 참조하세요.

DBFS REST API 삭제 엔드포인트 크기 제한

2020년 5월 21~28일: 버전 3.20

DBFS API를 사용하여 많은 수의 파일을 재귀적으로 삭제하면 삭제 작업이 증분 방식으로 수행됩니다. 호출은 디렉터리 구조가 완전히 삭제될 때까지 삭제 작업을 다시 호출하라는 오류 메시지와 함께 약 45초 후에 응답을 반환합니다. 예시:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

많은 수의 MLflow 등록된 모델을 쉽게 볼 수 있음

2020년 5월 21~28일: 버전 3.20

MLflow 모델 레지스트리는 이제 등록된 모델에 대한 서버 쪽 검색 및 페이지 매김을 지원하므로 모델이 많은 조직에서 나열 및 검색을 효율적으로 수행할 수 있습니다. 이전과 마찬가지로 이름으로 모델을 검색하고 이름 또는 마지막으로 업데이트된 시간별로 정렬된 결과를 가져올 수 있습니다. 그러나 모델이 많은 경우 페이지가 훨씬 더 빠르게 로드되고 검색이 모델의 최신 보기를 가져옵니다.

모든 클러스터에 설치되도록 구성된 라이브러리가 Databricks Runtime 7.0 이상을 실행하는 클러스터에는 설치되지 않음

2020년 5월 21~28일: 버전 3.20

Databricks Runtime 7.0 이상에서 Apache Spark의 기본 버전은 Scala 2.12를 사용합니다. Scala 2.11에 대해 컴파일된 라이브러리는 예기치 않은 방식으로 Databricks Runtime 7.0 클러스터를 사용하지 않도록 설정할 수 있으므로 Databricks Runtime 7.0 이상을 실행하는 클러스터는 모든 클러스터에 설치되도록 구성된 라이브러리를 설치하지 않습니다. 클러스터 라이브러리 탭에는 라이브러리 처리 변경 내용과 관련된 Skipped 상태 및 사용 중단 메시지가 표시됩니다.

3.20이 작업 영역에 릴리스되기 전 이전 버전의 Databricks Runtime에서 만들어진 클러스터가 있고 이제 Databricks Runtime 7.0을 사용하도록 해당 클러스터를 편집하는 경우, 모든 클러스터에 설치되도록 구성되어 있으면 해당 클러스터에 설치됩니다. 이 경우 설치된 라이브러리의 호환되지 않는 JAR로 인해 클러스터가 사용하지 않도록 설정될 수 있습니다. 해결 방법은 클러스터를 복제하거나 새 클러스터를 만드는 것입니다.

Genomics용 Databricks Runtime 7.0(베타)

2020년 5월 21일

Genomics용 Databricks Runtime 7.0은 Databricks Runtime 7.0을 기반으로 빌드되었으며 다음과 같은 라이브러리 변경 내용을 포함합니다.

  • ADAM 라이브러리가 버전 0.30.0에서 0.32.0으로 업데이트되었습니다.
  • Hail 라이브러리는 Apache Spark 3.0을 기반으로 하는 릴리스가 없으므로 Genomics용 Databricks Runtime 7.0에는 포함되어 있지 않습니다.

Databricks Runtime 7.0 ML(베타)

2020년 5월 21일

Databricks Runtime 7.0 ML은 Databricks Runtime 7.0을 기반으로 빌드되었으며 다음과 같은 새로운 기능을 포함합니다.

  • conda 및 pip 명령으로 관리되는 Notebook 범위 Python 라이브러리 및 사용자 지정 환경.
  • tensorflow, tensorboard, pytorch, xgboost, sparkdl 및 hyperopt를 포함한 주요 Python 패키지에 대한 업데이트가 있습니다.
  • 새로 추가된 Python 패키지 lightgbm, nltk, petastorm 및 plotly가 있습니다.
  • RStudio Server Open Source v1.2.

자세한 내용은 전체 Databricks Runtime 7.0 ML(지원되지 않는) 릴리스 정보를 참조하세요.

Genomics용 Databricks Runtime 6.6(베타)

2020년 5월 7일

Genomics용 Databricks Runtime 6.6은 Databricks Runtime 6.6을 기반으로 빌드되었으며 다음과 같은 새로운 기능을 포함합니다.

  • GFF3 판독기
  • 사용자 지정 참조 게놈 지원
  • 샘플별 파이프라인 시간 제한
  • BAM 내보내기 옵션
  • 매니페스트 Blob

Databricks Runtime 6.6 ML(베타)

2020년 5월 7일

Databricks Runtime 6.6 ML은 Databricks Runtime 6.6을 기반으로 빌드되었으며 다음과 같은 새로운 기능을 포함합니다.

  • 업그레이드된 mlflow: 1.7.0에서 1.8.0으로

자세한 내용은 전체 Databricks Runtime 6.6 ML(지원되지 않는) 릴리스 정보를 참조하세요.

Databricks Runtime 6.6(베타)

2020년 5월 7일

Databricks Runtime 6.6(베타)은 다음과 같은 Delta Lake 기능을 포함하여 많은 라이브러리 업그레이드 및 새로운 기능을 제공합니다.

  • 이제 merge 작업을 통해 테이블의 스키마를 자동으로 발전시킬 수 있습니다. 이는 변경 데이터를 테이블로 upsert하고 데이터의 스키마가 시간이 지남에 따라 변경되는 시나리오에서 유용합니다. upsert하기 전에 스키마 변경 내용을 검색하고 적용하는 대신 merge는 스키마를 발전시키는 동시에 변경 내용을 upsert할 수 있습니다. Delta Lake 병합을 위한 자동 스키마 진화를 참조하세요.
  • 일치하는 절만 있는 병합 작업 즉 updatedelete 작업만 있고 insert 작업이 없는 병합 작업의 성능이 향상되었습니다.
  • Hive 메타스토어에서 참조되는 Parquet 테이블은 이제 CONVERT TO DELTA를 사용하는 테이블 식별자를 통해 Delta Lake로 변환할 수 있습니다.

자세한 내용은 전체 Databricks Runtime 6.6(지원되지 않는) 릴리스 정보를 참조하세요.

이제 작업 클러스터에 작업 이름 및 ID 태그가 지정됨

2020년 5월 5~12일: 버전 3.19

작업 클러스터에는 작업 이름과 ID가 자동으로 태그가 지정됩니다. 태그는 작업별로 DBU 사용량의 특성을 쉽게 지정하고 변칙을 식별할 수 있도록 청구 가능한 사용량 보고서에 표시됩니다. 태그는 허용되는 문자, 최대 크기 및 최대 태그 수와 같은 클러스터 태그 사양에 따라 삭제됩니다. 작업 이름은 RunName 태그에 포함되고 작업 ID는 JobId 태그에 포함됩니다.

삭제된 Notebook 셀 복원

2020년 5월 5~12일: 버전 3.19

이제 (Z) 바로 가기 키를 사용하거나 편집 > 셀 삭제 취소를 선택하여 삭제된 셀을 복원할 수 있습니다.

큐 제한 보류 중인 작업

2020년 5월 5~12일: 버전 3.19

이제 작업 영역은 1000개의 활성(실행 중 및 보류 중) 작업 실행으로 제한됩니다. 작업 영역은 150개의 동시(실행 중인) 작업 실행으로 제한되므로 작업 영역은 보류 중인 큐에서 최대 850개의 실행을 가질 수 있습니다.