ADAM
ADAM 是一个用于在 Apache Spark 上进行基因组数据处理的库。 它用于实现对基因组读取数据(例如 BAM、SAM 和 CRAM 文件)进行操作的管道。
在 Azure Databricks 中使用 ADAM:
使用以下 Spark 配置启动 Databricks Runtime 群集:
# Hadoop configs org.apache.spark.serializer.KryoSerializer spark.kryo.registrator org.bdgenomics.adam.serialization.ADAMKryoRegistrator spark.hadoop.hadoopbam.bam.enable-bai-splitter true安装群集库:
- Maven:
org.bdgenomics.adam:adam-apis-spark3_2.12:<version> - PyPI:
bdgenomics.adam
- Maven: