ADAM

ADAM 是一个用于在 Apache Spark 上进行基因组数据处理的库。 它用于实现对基因组读取数据(例如 BAM、SAM 和 CRAM 文件)进行操作的管道。

在 Azure Databricks 中使用 ADAM:

  1. 使用以下 Spark 配置启动 Databricks Runtime 群集:

    # Hadoop configs
    org.apache.spark.serializer.KryoSerializer
    spark.kryo.registrator org.bdgenomics.adam.serialization.ADAMKryoRegistrator
    spark.hadoop.hadoopbam.bam.enable-bai-splitter true
    
  2. 安装群集库

    • Maven:org.bdgenomics.adam:adam-apis-spark3_2.12:<version>
    • PyPI:bdgenomics.adam