Databricks Runtime 6.4 for Genomics (nem támogatott)

A Databricks 2020 februárjában adta ki ezt a képet.

A Databricks Runtime for Genomics (Databricks Runtime Genomics) a Databricks Runtime 6.4 (nem támogatott) változata, amely genomikai és biomedikai adatokkal való munkavégzésre van optimalizálva. Ez a Databricks Genomics egyesített elemzési platformjának összetevője.

Megjegyzés

A Genomics databricks-futtatókörnyezete elavult. A Databricks már nem készít új Databricks Runtime for Genomics-kiadásokat, és 2022. szeptember 24-én megszünteti a Genomicshez készült Databricks Runtime támogatását, amikor a Databricks Runtime for Genomics 7.3 LTS támogatása véget ér. Ezen a ponton a Genomicshoz készült Databricks-futtatókörnyezet már nem lesz kiválasztható a fürt létrehozásakor. További információ a Databricks-futtatókörnyezet megszűnési szabályzatáról és ütemezéséről: A Databricks-futtatókörnyezet támogatott kiadásai és támogatási ütemezése. A futtatókörnyezet részét képező bioinformatikai kódtárak Docker-tárolókként jelentek meg, amelyeket a ProjectGlow DockerHub oldalán talál.

További információkért, beleértve a Genomics-fürthöz készült Databricks-futtatókörnyezet létrehozásának utasításait, tekintse meg a Genomicshoz készült Databricks-futtatókörnyezetet (elavult) ismertető cikket. A genomikai alkalmazások fejlesztéséről további információt a Genomics útmutatójában talál.

Új funkciók

A Databricks Runtime 6.4 for Genomics a Databricks Runtime 6.4-re épül. A Databricks Runtime 6.4 újdonságairól a Databricks Runtime 6.4 (nem támogatott) kibocsátási megjegyzéseiben olvashat.

DNASeq-folyamat testreszabása

A Databricks Runtime 6.4 for Genomics DNASeq szolgáltatása mostantól testre szabható. A folyamatfelhasználók mostantól szelektíven letilthatják az olvasási igazítás, a variánshívás és a változatjegyzetszakaszok jogszerű kombinációját. A felhasználók egyvégű olvasási igazítást is végezhetnek.

Python- és Scala API-k

A Genomicshoz készült Databricks Runtime 6.4-es verziójában megtalálható Glow verzió python és Scala API-kat tartalmaz a korábban csak SQL-kifejezéseken keresztül közzétett függvényekhez. Ezek a funkciók a DataFrame-műveletekhez érhetők el, így jobb fordítási időt biztosítanak.

Fejlesztések

Egybesimított változatséma

A DNASeq és az joint genotyping pipelines egy lapított sémában adja ki a variánsadatokat a Delta Lake-nek.

Továbbfejlesztett változatnormalizáló

A Glow és a Databricks Runtime 6.4 for Genomics változat normalizálója körülbelül 2,5-szer gyorsabb, mint a Databricks Runtime 6.3 for Genomics verziója. Az új normalizáló átalakítóként és SQL függvényként hívható meg, megőrzi az eredeti sémát, és továbbfejlesztett hibatűrést biztosít.

Kódtárak

A Databricks Runtime 6.4 for Genomics alábbi kódtárai eltérnek a Databricks Runtime 6.4-ben található kódtáraktól.

Kódtár Verzió
ADAM 0.28.0
Hadoop-bam 7.9.2
Jégeső 0.2.26
GATK 4.0.11.0
samtools 1.9
VEP 96