Databricks Runtime 7.3 LTS for Genomics

Databricks는 9 월 2020에이 이미지를 릴리스 했습니다. 10 월 2020에 LTS (장기 지원)로 선언 되었습니다.

Databricks Runtime 7.3 LTS for Genomics는 게놈 및 생명 공학 데이터 작업을 위해 최적화 된 Databricks Runtime 7.3 lts 버전입니다. Genomics에 대 한 Databricks 통합 분석 플랫폼의 구성 요소입니다.

참고

Genomics용 Databricks Runtime은 사용되지 않습니다. Databricks는 더 이상 Genomics용 Databricks Runtime 릴리스를 빌드하지 않으며, Genomics용 Databricks Runtime 7.3 LTS 지원이 종료되는 2022년 9월 24일에 Genomics용 Databricks Runtime에 대한 지원을 제거합니다. 그때부터는 클러스터를 만들 때 Genomics용 Databricks Runtime을 더 이상 선택할 수 없습니다. Databricks Runtime 사용 중단 정책 및 일정에 대한 자세한 내용은 지원되는 Databricks Runtime 릴리스 및 지원 일정을 참조하세요. 런타임에 포함 된 생물 정보학 라이브러리는 Docker 컨테이너로 릴리스 되었으며,이는 Projectglow Dockerhub 페이지에서 찾을 수 있습니다.

Genomics 클러스터에 대 한 Databricks Runtime를 만드는 방법에 대 한 지침을 비롯 한 자세한 내용은 Genomics (사용 되지 않음)에대 한 Databricks Runtime를 참조 하세요. Genomics 응용 프로그램 개발에 대 한 자세한 내용은 genomics guide를 참조 하세요.

Databricks Runtime 6.x에서 Databricks Runtime 7.3 LTS로의 마이그레이션에 대 한 도움말은 Databricks Runtime 7.x 마이그레이션 가이드를 참조 하세요.

새로운 기능

Databricks Runtime 7.3 LTS for Genomics는 Databricks Runtime 7.3 LTS를 기반으로 빌드됩니다. Databricks Runtime 7.3 LTS의 새로운 기능에 대 한 자세한 내용은 Databricks Runtime 7.3 lts 릴리스 정보를 참조 하세요.

압축 되지 않은 또는 zstd 압축 된 genotypes를 사용 하 여 BGEN 파일 읽기 지원

이제 광선은 zlib 함수를 사용 하 여 압축 된 데이터를 읽을 수 있는 기존 지원 뿐만 아니라 zstandard의 기능을 사용 하 여 압축 또는 압축 된 축소 된 블록 확률 데이터를 포함 하는 bgen 파일을 읽을 수 있도록 지원 compress() 합니다.

향상 된 기능

Variant liftOver 성능

이제 광선으로 변형 liftOver 을 수행 하는 것이 더 빠릅니다.

ABFS로 더 빠른 빅 파일 업로드

이제 큰 파일 (예: .VCF, BGEN 및 BAM)을 Azure Blob 파일 시스템 에 기록 하는 작업은 최대 2 배 더 빠릅니다.

자동 크기 조정 클러스터의 DNASeq 파이프라인 성능

이제 DNASeq 파이프라인이 자동 크기 조정 클러스터에 대해 더 잘 조정 되었습니다.

기본적으로 Pipelines 출력 bgzipped vcfs

이제 모든 genomics 파이프라인은 기본적으로 bgzip를 사용 하 여 출력 VCFs를 압축 합니다. 출력 VCFs는 이전에 기본적으로 압축 해제 되었습니다. 이를 구성 하려면 vcfCompressionCodec 에서 파이프라인 옵션을 변경 bgzf 합니다.

리팩터링

TNSeq 파이프라인 이름이 MutSeq로 바뀌었습니다.

Tumor/Normal 파이프라인이 TNSeq에서 MutSeq로 이름이 변경 되었습니다.

라이브러리

다음 섹션에는 Databricks Runtime 7.3에 포함 된 것과 다른 Databricks Runtime 7.3 LTS for Genomics에 포함 된 라이브러리가 나열 되어 있습니다.

패키지 라이브러리

라이브러리 버전
대해서 0.32.0
GATK 4.1.4.1
Hadoop-bam 7.9.2
samtools 1.9
VEP 96