Databricks Runtime 7,3 LTS pro genomiky

Datacihly vydaly tento obrázek v září 2020. V říjnu 2020 se deklarovala Dlouhodobá podpora (LTS).

Databricks Runtime 7,3 LTS pro genomika je verze Databricks Runtime 7,3 LTS optimalizovaná pro práci s genomikou a biolékařskými daty. Je součástí sjednocené analytické platformy datacihly pro genomiky.

Poznámka

Databricks Runtime pro genomika je zastaralá. Datacihly už nevytvářejí nové Databricks Runtime pro verze genomiky a odstraňují podporu Databricks Runtime pro genomiku v září 2022, pokud Databricks Runtime pro genomiku 7,3 LTS podpora. V tomto okamžiku Databricks Runtime pro genomiky již nebude k dispozici pro výběr při vytváření clusteru. Další informace o plánu a zásadách vyřazování Databricks Runtime najdete v tématu Podporované verze modulu Databricks Runtime a plán podpory.

Další informace, včetně pokynů pro vytvoření Databricks Runtime pro cluster genomiky, najdete v tématu Databricks runtime pro genomika (nepoužívané). Další informace o vývoji aplikací s využitím genomiky najdete v tématu Průvodce genomikou.

Nápovědu k migraci z Databricks Runtime 6. x na Databricks Runtime 7,3 LTS najdete v Průvodci migrací Databricks Runtime 7. x.

Nové funkce

Databricks Runtime 7,3 LTS pro genomika je postavená na Databricks Runtime 7,3 LTS. Informace o tom, co je nového v Databricks Runtime 7,3 LTS, najdete v poznámkách k verzi Databricks Runtime 7,3 LTS .

Podpora pro čtení souborů BGEN s nekomprimovanými nebo zstdými genotypy

Záře teď podporuje čtení souborů BGEN obsahujících data pravděpodobnosti bloku SNP, která jsou nekomprimovaná nebo komprimovaná pomocí ZSTD_compress() funkce zstandard, kromě stávající podpory pro čtení dat komprimovaných pomocí compress() funkce zlib.

Vylepšen

LiftOver výkon varianty

Provádění variant liftOver s záři je teď až 12x rychlejší.

Rychlejší nahrávání velkých souborů do ABFS

Zápis velkých souborů (například VCF, BGEN a BAM) do systému souborů objektů BLOB v Azure je teď až dvojnásobější.

Výkon DNASeq kanálu na clusterech automatického škálování

Kanál DNASeq je teď lépe vyladěný pro clustery automatického škálování.

Výstup kanálů bgzipped VCFs ve výchozím nastavení.

Všechny kanály genomiky teď ve výchozím nastavení komprimují výstupní VCFs pomocí bgzip. Výstupní VCFs byly ve výchozím nastavení již nekomprimovány. Pokud to chcete nakonfigurovat, změňte vcfCompressionCodec možnost kanálu z bgzf .

Vyčleňuje spoustu starších

Kanál TNSeq se přejmenoval na MutSeq.

Kanál tumor/Normal byl přejmenován z TNSeq na MutSeq.

Knihovny

V následujících oddílech jsou uvedeny knihovny, které jsou součástí Databricks Runtime 7,3 LTS pro genomika, která se liší od těch, které jsou zahrnuté v Databricks Runtime 7,3.

Zabalené knihovny

Knihovna Verze
SLUŽBY 0.32.0
GENOME 4.1.4.1
Hadoop – BAM 7.9.2
samtools 1.9
VEP 96