ADÃO

Adam é uma biblioteca para processamento de dados genômicos em Apache Spark. É utilizado para implementar oleodutos que operam em dados de leitura genómica, tais como ficheiros BAM, SAM e CRAM.

Para utilizar adam em Azure Databricks:

  1. Lançar um cluster de tempo de execução databricks com estas configurações Spark:

    # Hadoop configs
    org.apache.spark.serializer.KryoSerializer
    spark.kryo.registrator org.bdgenomics.adam.serialization.ADAMKryoRegistrator
    spark.hadoop.hadoopbam.bam.enable-bai-splitter true
    
  2. Instalar as bibliotecas de cluster:

    • Maven: org.bdgenomics.adam:adam-apis-spark3_2.12:<version>
    • PyPI: bdgenomics.adam