Databricks Runtime 6.4 för Genomics (stöds inte)

Databricks släppte den här bilden i februari 2020.

Databricks Runtime for Genomics (Databricks Runtime Genomics) är en variant av Databricks Runtime 6.4 (stöds inte) som är optimerad för att arbeta med genomiska och biomedicinska data. Det är en komponent i Databricks Unified Analytics Platform for Genomics.

Anteckning

Databricks Runtime for Genomics är inaktuell. Databricks skapar inte längre nya Databricks Runtime for Genomics-versioner och tar bort stödet för Databricks Runtime for Genomics den 24 september 2022 när Databricks Runtime for Genomics 7.3 LTS-supporten upphör. Då är Databricks Runtime for Genomics inte längre tillgängligt för val när du skapar ett kluster. Mer information om policyn och schemat för utfasningen av Databricks Runtime finns i Databricks Runtime-versioner som stöds och supportschema. Bioinformatikbibliotek som ingick i körningen har släppts som Docker-containrar, som du hittar på sidan ProjectGlow Dockerhub .

Mer information, inklusive instruktioner för att skapa ett Databricks Runtime för Genomics-kluster, finns i Databricks Runtime for Genomics (inaktuell). Mer information om hur du utvecklar genomikprogram finns i Genomics-guiden.

Nya funktioner

Databricks Runtime 6.4 for Genomics bygger på Databricks Runtime 6.4. Information om nyheter i Databricks Runtime 6.4 finns i viktig information om Databricks Runtime 6.4 (stöds inte ).

Anpassningar av DNASeq-pipeline

DNASeq i Databricks Runtime 6.4 for Genomics kan nu anpassas. Pipelineanvändare kan nu selektivt inaktivera alla legitima kombinationer av läsjustering, variantanrop och variantanteckningssteg. Användare kan också utföra en enda läsjustering.

API:er för Python och Scala

Versionen av Glow som ingår i Databricks Runtime 6.4 for Genomics innehåller Python- och Scala-API:er för funktioner som tidigare endast exponerats via SQL uttryck. Dessa funktioner är tillgängliga för DataFrame-åtgärder, vilket ger bättre kompileringstidssäkerhet.

Förbättringar

Schema för utplattad variant

DNASeq- och gemensamma genotypningspipelines matar ut variantdata i ett utplattat schema till Delta Lake.

Förbättrad variantnormaliserare

Variantnormaliseraren i Glow och Databricks Runtime 6.4 for Genomics är ungefär 2,5 gånger snabbare än versionen i Databricks Runtime 6.3 för Genomics. Den nya normaliseraren kan anropas som en transformerare samt en SQL funktion, bevarar det ursprungliga schemat och ger förbättrad feltolerans.

Bibliotek

Följande bibliotek som ingår i Databricks Runtime 6.4 for Genomics skiljer sig från de som ingår i Databricks Runtime 6.4.

Bibliotek Version
ADAM 0.28.0
Hadoop-bam 7.9.2
Hagel 0.2.26
GATK 4.0.11.0
Samtools 1.9
VEP 96