Databricks Runtime 7.0 för Genomics (stöds inte)

Databricks släppte den här bilden i juni 2020.

Databricks Runtime 7.0 for Genomics är en version av Databricks Runtime 7.0 (stöds inte) som är optimerad för att arbeta med genomiska och biomedicinska data. Det är en komponent i Databricks Unified Analytics Platform for Genomics.

Mer information, inklusive instruktioner för att skapa ett Databricks Runtime för Genomics-kluster, finns i Databricks Runtime for Genomics (inaktuell). Mer information om hur du utvecklar genomikprogram finns i Genomics-guiden.

Nya funktioner

Databricks Runtime 7.0 for Genomics bygger på Databricks Runtime 7.0. Information om nyheter i Databricks Runtime 7.0 finns i viktig information om Databricks Runtime 7.0 (stöds inte ).

GloWGR: Hel genomregression

Glow innehåller nu en skalbar metod för hela genomregression, GloWGR. GloWGR är en distribuerad version av verktyget regenie med en nod. GloWGR är ett företagsklart verktyg som ger motsvarande noggrannhet till andra metoder för regression av hela genomet, men med en hastighetsförbättring i storleksordning. Mer information finns i hela genomregression i öppen källkod.

Transformatorer accepterar argument som inte är strängskrivna

Alla Glow-transformatorer, inklusive rörtransformator och variantnormaliserare, accepterar nu argument vars värden inte är strängar. Glow-dokumentationen för rörtransformatorer återspeglar den nya användningen. För bakåtkompatibilitet accepteras fortfarande strängvärden för alla argument.

Numpy ndarray-literaler

Du kan nu skicka literal numpy 1D- och 2D float-typade ndarrays till funktioner som förväntar sig DataFrame-kolumner med typer array<double> respektive DenseMatrix . Dokumentationen för Glow genome-wide association study visar den nya användningen.

Medelersättningsfunktion

Glow tillhandahåller nu en mean_substitute funktion för att ersätta saknade värden i en matris med medelvärdet av värden som inte saknas.

Förbättringar

Prestanda för gemensam genotypning

Prestandan för den gemensamma genotypningspipelinen har förbättrats med 5–20 %. Förbättringen uttalas särskilt när du använder klusternodtyper med många kärnor per nod.

VCF-läsaren ignorerar tabixindexfiler

I tidigare versioner kan VCF-läsaren misslyckas när du läser en katalog med VCF-filer om katalogen innehåller tabix-indexfiler. Läsaren skulle försöka tolka tabix-filerna som VCF-filer och rapportera ett fel. Nu använder läsaren bara indexfiler för att avgöra vilka datafiler som ska läsas.

Alternativet har tagits bort splitToBiallelic från VCF-läsaren

Det här alternativet har tagits bort till förmån för split_multiallelics transformator. Transformatorn är snabbare och mer exakt än alternativet VCF-läsare.

Bibliotek

I följande avsnitt visas de bibliotek som ingår i Databricks Runtime 7.0 for Genomics som skiljer sig från de som ingår i Databricks Runtime 7.0.

Uppgraderade bibliotek

  • 0.30.0 till 0.32.0

Bibliotek har tagits bort

Hail ingår inte i Databricks Runtime 7.0 for Genomics eftersom det inte finns någon version baserad på Apache Spark 3.0.

Paketerade bibliotek

Bibliotek Version
ADAM 0.32.0
GATK 4.1.4.1
Hadoop-bam 7.9.2
Samtools 1.9
VEP 96