Databricks Runtime 6,4 för genomik (stöds inte)

Databricks släpptes den här avbildningen i februari 2020.

Databricks Runtime för genomik (Databricks Runtime genomik) är en variant av Databricks Runtime 6,4 (stöds inte) som är optimerad för att arbeta med genomik och biomedicinsk information. Det är en komponent i Databricks Unified Analytics-plattformen för genomik.

Anteckning

Databricks Runtime för genomik är föråldrad. Databricks skapar inte längre nya Databricks Runtime för Genomiks versioner och tar bort stöd för Databricks Runtime för genomik den 24 september 2022, när Databricks Runtime för genomik 7,3 LTS support upphör. Vid det här tillfället kommer Databricks Runtime för genomik inte längre att vara tillgängliga när du skapar ett kluster. Mer information om policyn och schemat för utfasningen av Databricks Runtime finns i Databricks Runtime-versioner som stöds och supportschema.

Mer information, inklusive instruktioner för att skapa en Databricks Runtime för genomik-kluster, finns Databricks runtime för genomik (inaktuell). Mer information om hur du utvecklar genomiks program finns i Guide för genomik.

Nya funktioner

Databricks Runtime 6,4 för genomik skapas ovanpå Databricks Runtime 6,4. Information om vad som är nytt i Databricks Runtime 6,4 finns i viktig information om Databricks Runtime 6,4 (stöds inte) .

Anpassningar av DNASeq-pipeline

DNASeq i Databricks runtime 6,4 för genomik kan nu anpassas. Pipeline-användare kan nu selektivt inaktivera eventuella legitima kombinationer av anteckningarna Läs justering, variant-anrop och variant. Användare kan också utföra en enkel läsnings justering.

Python-och Scala-API: er

Den version av glöd som ingår i Databricks runtime 6,4 för genomik innehåller python-och Scala-API: er för funktioner som tidigare endast exponerats via SQL-uttryck. Dessa funktioner är tillgängliga för DataFrame-åtgärder, vilket ger bättre kompilering av kompilering.

Bättre

Förenklat variant-schema

DNASeq och gemensamma genotyper går ut i ett utplattat schema till delta Lake.

Förbättrad variant-normalisering

Variant normalisering i ljus sken och Databricks runtime 6,4 för genomik är ungefär 2,5 x snabbare än versionen i Databricks runtime 6,3 för genomik. Den nya normaliseringen kan anropas som en transformator och en SQL-funktion, bevara det ursprungliga schemat och ger förbättrad fel tolerans.

Bibliotek

Följande bibliotek som ingår i Databricks Runtime 6,4 för genomik skiljer sig från de som ingår i Databricks Runtime 6,4.

Bibliotek Version
ADAM 0.28.0
Hadoop-BAM 7.9.2
Hagel 0.2.26
ANVÄNDAS 4.0.11.0
samtools 1.9
VEP 96