Databricks Runtime for Genomics (inaktuell)

Databricks Runtime for Genomics (Databricks Runtime Genomics) är en version av Databricks Runtime som är optimerad för att arbeta med genomiska och biomedicinska data. Det är en komponent i Azure Databricks Unified Analytics Platform for Genomics. Mer information om hur du utvecklar genomikprogram finns i Genomics-guiden.

Anteckning

Databricks Runtime for Genomics är inaktuell. Databricks skapar inte längre nya Databricks Runtime for Genomics-versioner och tar bort stöd för Databricks Runtime for Genomics den 24 september 2022, när Databricks Runtime for Genomics 7.3 LTS-supporten upphör. Då är Databricks Runtime for Genomics inte längre tillgängligt för val när du skapar ett kluster. Mer information om policyn och schemat för utfasningen av Databricks Runtime finns i Databricks Runtime-versioner som stöds och supportschema. Bioinformatikbibliotek som ingick i körningen har släppts som Docker-containrar, som du hittar på sidan ProjectGlow Dockerhub .

Vad finns i Databricks Runtime for Genomics?

 • En optimerad version av Databricks-Regeneron bibliotek med öppen källkod Glow med alla dess funktioner samt:
  • Stöd för Spark SQL för läsning och skrivning av variantdata
  • Funktioner för vanliga arbetsflödeselement
  • Optimeringar för vanliga frågemönster
 • Nyckelfärdiga pipelines parallelliserade med Apache Spark:
 • Hail 0.2-integrering
 • Populära öppen källkod bibliotek, optimerade för prestanda och tillförlitlighet:
  • ADAM
  • GATK
  • Hadoop-bam
 • Populära kommandoradsverktyg:
  • Samtools
 • Referensdata (grch37 eller 38, kända SNP-platser)

Se Viktig information om Databricks Runtime for Genomics för en fullständig lista över inkluderade bibliotek och versioner.

Krav

Din Azure Databricks-arbetsyta måste ha Databricks Runtime for Genomics aktiverat.

Skapa ett kluster med Databricks Runtime for Genomics

När du skapar ett kluster väljer du en Databricks Runtime för Genomics-version från listrutan Databricks Runtime Version.