Databricks Runtime 7.0 for Genomics (Nem támogatott)

A Databricks 2020 júniusában adta ki ezt a képet.

A Genomicshoz készült Databricks Runtime 7.0 a Databricks Runtime 7.0 (nem támogatott) verziója, amely genomikai és biomedikai adatok kezelésére van optimalizálva. Ez a Genomicshoz készült Databricks Unified Analytics platform összetevője.

További információkért, beleértve a Databricks Runtime for Genomics-fürt létrehozásához szükséges utasításokat, tekintse meg a Genomicshoz készült Databricks-futtatókörnyezetet (elavult). A genomikai alkalmazások fejlesztésével kapcsolatos további információkért lásd a Genomics útmutatóját.

Új funkciók

A Databricks Runtime 7.0 for Genomics a Databricks Runtime 7.0-ra épül. A Databricks Runtime 7.0 újdonságairól a Databricks Runtime 7.0 (nem támogatott) kibocsátási megjegyzéseiben olvashat.

GloWGR: Teljes genomregresszió

A Glow most már tartalmaz egy skálázható teljes genomregressziós módszert, a GloWGR-t. A GloWGR az egycsomópontos eszköz regenie elosztott verziója. A GloWGR egy nagyvállalati használatra kész eszköz, amely egyenértékű pontosságot biztosít a teljes genom regresszió más módszereivel, de a sebesség nagyságrendi javulásával. Részletekért lásd a teljes genomregressziót nyílt forráskód.

Az átalakítók nem sztring típusú argumentumokat fogadnak el

Az összes glow transzformátor, beleértve a csőátalakítót és a variáns normalizálót, mostantól elfogad olyan argumentumokat, amelyek értékei nem sztringek. A csőátalakító Glow dokumentációja az új használatot tükrözi. A visszamenőleges kompatibilitás érdekében a sztringértékek továbbra is elfogadnak minden argumentumot.

Numpy ndarray literálok

Mostantól numpy 1D és 2D lebegőpontos ndarray-t adhat át olyan függvényeknek, amelyek dataFrame-oszlopokat várnak típusokkal array<double> és DenseMatrix típusokkal. A Glow genome-wide association study dokumentációja bemutatja az új használatot.

Középérték helyettesítési függvény

A Glow mostantól egy mean_substitute függvényt biztosít, amellyel a tömb hiányzó értékeit helyettesítheti a nem hiányzó értékek középértékével.

Fejlesztések

Közös genotípus-meghatározási teljesítmény

A közös genotípus-meghatározási folyamat teljesítménye 5-20%-kal javult. A fejlesztés különösen akkor jelentős, ha csomópontonként több maggal rendelkező fürtcsomópont-típusokat használ.

A VCF-olvasó figyelmen kívül hagyja a tabix-indexfájlokat

A korábbi kiadásokban a VCF-olvasó meghibásodhat a VCF-fájlok könyvtárának olvasása során, ha a könyvtár tabix indexfájlokat tartalmaz. Az olvasó VCF-fájlként próbálja értelmezni a tabix-fájlokat, és hibát jelez. Most az olvasó csak indexfájlokat használ annak meghatározásához, hogy mely adatfájlokat kell olvasni.

A VCF-olvasó el lett távolítva splitToBiallelic

Ez a beállítás el lett távolítva a split_multiallelics transzformátor javára. A transzformátor gyorsabb és pontosabb, mint a VCF-olvasó lehetőség.

Kódtárak

Az alábbi szakaszok a Databricks Runtime 7.0 for Genomicsben található kódtárakat sorolják fel, amelyek eltérnek a Databricks Runtime 7.0-ban szereplő kódtáraktól.

Frissített kódtárak

  • ÁDÁM: 0.30.0–0.32.0

Eltávolított kódtárak

A Hail nem része a Genomics-hez készült Databricks Runtime 7.0-nak, mivel az Apache Spark 3.0-n alapuló kiadás nem létezik.

Csomagolt kódtárak

Kódtár Verzió
ADAM 0.32.0
GATK 4.1.4.1
Hadoop-bam 7.9.2
samtools 1.9
VEP 96