LTS Genomics の Databricks Runtime 7.3Databricks Runtime 7.3 LTS for Genomics

Databricks は、2020年9月にこのイメージをリリースしました。Databricks released this image in September 2020. 2020年10月に、長期的なサポート (LTS) として宣言されています。It was declared Long Term Support (LTS) in October 2020.

Databricks Runtime 7.3 LTS for Genomics は、ゲノムおよび生体データを操作するために最適化された Databricks Runtime 7.3 LTS のバージョンです。Databricks Runtime 7.3 LTS for Genomics is a version of Databricks Runtime 7.3 LTS optimized for working with genomic and biomedical data. これは、Genomics 用の Databricks 統合分析プラットフォームのコンポーネントです。It is a component of the Databricks Unified Analytics Platform for Genomics.

Genomics クラスターの Databricks Runtime を作成する手順など、詳細については、 Genomics の「Databricks Runtime」を参照してください。For more information, including instructions for creating a Databricks Runtime for Genomics cluster, see Databricks Runtime for Genomics. Genomics アプリケーションの開発の詳細については、「 genomics guide」を参照してください。For more information on developing genomics applications, see Genomics guide.

新機能New features

Databricks Runtime 7.3 LTS for Genomics は Databricks Runtime 7.3 LTS の上に構築されています。Databricks Runtime 7.3 LTS for Genomics is built on top of Databricks Runtime 7.3 LTS. Databricks Runtime 7.3 LTS の新機能の詳細については、 Databricks Runtime 7.3 LTS リリースノートを参照してください。For information on what’s new in Databricks Runtime 7.3 LTS, see the Databricks Runtime 7.3 LTS release notes.

圧縮されていないか、zstd で圧縮された genotypes を使用した BGEN ファイルの読み取りのサポートSupport for reading BGEN files with uncompressed or zstd-compressed genotypes

光彩は、 ZSTD_compress() zlib の関数を使用して圧縮または圧縮されたデータを読み取るための既存のサポートに加えて、zstandard の関数を使用して圧縮または圧縮された、.snp ブロックの確率データを含む bgen ファイルの読み取りをサポートするようになりました compress()Glow now supports reading BGEN files containing SNP block probability data that is uncompressed or compressed using zstandard’s ZSTD_compress() function, in addition to the existing support for reading data compressed using zlib’s compress() function.

改善Improvements

バリアント liftOver のパフォーマンスVariant liftOver performance

光彩を使用した バリアント liftOver の実行は、現在、12x に速くなりました。Performing variant liftOver with Glow is now up to 12x faster.

ABFS へのより高速なファイルのアップロードFaster big file upload to ABFS

Azure Blob ファイルシステムへのビッグファイル (.VCF、BGEN、BAM など) の書き込みは、最大2倍高速になりました。Writing big files (such as VCF, BGEN and BAM) to the Azure Blob File System is now up to 2x faster.

自動スケールクラスターでの DNASeq パイプラインのパフォーマンスPerformance of DNASeq pipeline on autoscaling clusters

Dnaseq パイプラインが自動スケールクラスター用にチューニングされるようになりました。The DNASeq pipeline is now better tuned for autoscaling clusters.

既定で bgzipped VCFs を出力するパイプラインPipelines output bgzipped VCFs by default

すべての genomics パイプラインで、bgzip を使用して出力 VCFs が既定で圧縮されるようになりました。All genomics pipelines now default to compressing output VCFs using bgzip. 出力 VCFs は、既定では圧縮されていません。The output VCFs were previously uncompressed by default. これを構成するには、 vcfCompressionCodec パイプラインオプションをから変更し bgzf ます。To configure this, change the vcfCompressionCodec pipeline option from bgzf.

リファクタRefactors

TNSeq パイプラインの名前がミューテーター Seq に変更されましたTNSeq pipeline renamed to MutSeq

Tumor/Normal パイプラインは、Tnseq からミューテーター seq に名前が変更されました。The Tumor/Normal pipeline has been renamed from TNSeq to MutSeq.

ライブラリLibraries

以下のセクションでは、Databricks Runtime 7.3 に含まれているものとは異なる、Databricks Runtime 7.3 LTS for Genomics に含まれるライブラリについて説明します。The following sections list the libraries included in Databricks Runtime 7.3 LTS for Genomics that differ from those included in Databricks Runtime 7.3.

パッケージライブラリPackaged libraries

ライブラリLibrary バージョンVersion
ADAMADAM 0.32.00.32.0
GATKGATK 4.1.4.14.1.4.1
Hadoop-bamHadoop-bam 7.9.27.9.2
samtoolssamtools 1.91.9
VEPVEP 9696