用于基因组学的 Databricks Runtime(不推荐使用)

用于基因组学的 Databricks Runtime(Databricks Runtime 基因组学)是为处理基因组和生物医学数据而优化的 Databricks Runtime 版本。 它是用于基因组学的 Azure Databricks 统一分析平台的组件。 若要详细了解如何开发基因组学应用程序,请参阅基因组学指南

注意

用于基因组学的 Databricks Runtime 现已弃用。 Databricks 不再开发新版本的用于基因组学的 Databricks Runtime,并将在 2022年 9 月 24 日删除对用于基因组学的 Databricks Runtime 的支持,届时用于基因组学的 Databricks Runtime 7.3 LTS 支持将终止。 到那时,创建群集时将无法选择用于基因组学的 Databricks Runtime。 有关 Databricks Runtime 弃用策略和计划的详细信息,请参阅支持的 Databricks 运行时版本和支持计划。 作为运行时的一部分的生物信息学库已作为 Docker 容器发布,可在 ProjectGlow Dockerhub 页上找到该容器。

用于基因组学的 Databricks Runtime 中有哪些内容?

  • Databricks-Regeneron 开源库 Glow 的优化版本及其所有功能,以及:
    • 针对读取和写入变体数据的 Spark SQL 支持
    • 用于常见工作流元素的函数
    • 针对常见查询模式的优化
  • 与 Apache Spark 并行化的统包管道:
  • Hail 0.2 集成
  • 针对性能和可靠性进行了优化的常用开源库:
    • ADAM
    • GATK
    • Hadoop-bam
  • 常用命令行工具:
    • samtools
  • 参考数据(grch37 或 38,已知的 SNP 网站)

有关包含的库和版本的完整列表,请参阅用于基因组学的 Databricks Runtime 发行说明

要求

Azure Databricks 工作区必须已启用用于基因组学的 Databricks Runtime。

使用用于基因组学的 Databricks Runtime 创建群集

创建群集时,请从“Databricks Runtime 版本”下拉列表中选择用于基因组学的 Databricks Runtime 版本。