Genomics の場合は 6.4 Databricks RuntimeDatabricks Runtime 6.4 for Genomics

Databricks は2020年2月にこのイメージをリリースしました。Databricks released this image in February 2020.

Genomics の Databricks Runtime (Databricks Runtime Genomics) は、ゲノムおよび生体データを操作するために最適化された Databricks Runtime 6.4 のバリアントです。Databricks Runtime for Genomics (Databricks Runtime Genomics) is a variant of Databricks Runtime 6.4 optimized for working with genomic and biomedical data. これは、Genomics 用の Databricks 統合分析プラットフォームのコンポーネントです。It is a component of the Databricks Unified Analytics Platform for Genomics.

Genomics クラスターの Databricks Runtime を作成する手順など、詳細については、 Genomics の「Databricks Runtime」を参照してください。For more information, including instructions for creating a Databricks Runtime for Genomics cluster, see Databricks Runtime for Genomics. Genomics アプリケーションの開発の詳細については、「 genomics guide」を参照してください。For more information on developing genomics applications, see Genomics guide.

新機能New features

Databricks Runtime 6.4 for Genomics は Databricks Runtime 6.4 の上に構築されています。Databricks Runtime 6.4 for Genomics is built on top of Databricks Runtime 6.4. Databricks Runtime 6.4 の新機能の詳細については、 Databricks Runtime 6.4 のリリースノートを参照してください。For information on what’s new in Databricks Runtime 6.4, see the Databricks Runtime 6.4 release notes.

DNASeq パイプラインのカスタマイズDNASeq pipeline customizations

Databricks Runtime 6.4 for Genomics のDnaseqをカスタマイズできるようになりました。DNASeq in Databricks Runtime 6.4 for Genomics can now be customized. パイプラインユーザーは、読み取りの配置、バリアント呼び出し、およびバリアント注釈の各ステージの適切な組み合わせを選択的に無効にできるようになりました。Pipeline users can now selectively disable any legitimate combination of the read alignment, variant calling, and variant annotation stages. ユーザーは、シングルエンドの読み取りの配置を実行することもできます。Users can also perform single-end read alignment.

Python と拡張性のある ApiPython and Scala APIs

Databricks Runtime 6.4 for Genomics に含まれている 光彩 のバージョンには、Python と、以前に SQL 式を使用してのみ公開された関数のための api が含まれています。The version of Glow included in Databricks Runtime 6.4 for Genomics includes Python and Scala APIs for functions previously exposed only via SQL expressions. これらの関数はデータフレーム操作で使用でき、コンパイル時の安全性が向上します。These functions are available for DataFrame operations, providing improved compile-time safety.

機能強化Improvements

フラット化バリアントスキーマFlattened variant schema

Dnaseqおよび共同 genotypingパイプラインは、フラット化されたスキーマのデルタレイクにバリアントデータを出力します。The DNASeq and joint genotyping pipelines output variant data in a flattened schema to Delta Lake.

改良されたバリアント型Improved variant normalizer

グローのバリアント型と Databricks Runtime 6.4 for Genomics は、Genomics の Databricks Runtime 6.3 のバージョンより約2.5 倍高速です。The variant normalizer in Glow and Databricks Runtime 6.4 for Genomics is about 2.5x faster than the version in Databricks Runtime 6.3 for Genomics. 新しいノーマライザー、トランスフォーマーとして、または SQL 関数として呼び出すことができ、元のスキーマを保持し、フォールトトレランスを向上させます。The new normalizer can be invoked as a transformer as well as a SQL function, preserves the original schema, and provides improved fault-tolerance.

ライブラリLibraries

Databricks Runtime 6.4 に含まれる次のライブラリは、Databricks Runtime 6.4 に含まれているものとは異なります。The following libraries included in Databricks Runtime 6.4 for Genomics differ from those included in Databricks Runtime 6.4.

ライブラリLibrary バージョンVersion
ADAMADAM 0.28.00.28.0
Hadoop-bamHadoop-bam 7.9.27.9.2
ひょうHail 0.2.260.2.26
GATKGATK 4.0.11.04.0.11.0
samtoolssamtools 1.91.9
VEPVEP 9696