Databricks runtime för genomik
Databricks Runtime för genomik (Databricks Runtime genomik) är en version av Databricks Runtime som är optimerad för att arbeta med genomik och biomedicinsk information. Det är en komponent i Azure Databricks Unified Analytics-plattformen för genomik. Mer information om hur du utvecklar genomiks program finns i Guide för genomik.
Vad finns Databricks Runtime för genomik?
- En optimerad version av Databricks-Regeneron av bibliotek med öppen källkod med alla dess funktioner samt:
- Spark SQL-stöd för läsning och skrivning av variant-data
- Funktioner för vanliga arbets flödes element
- Optimeringar för vanliga fråge mönster
- Rörledningar för aktiverings nycklar är parallella med Apache Spark:
- Hagel 0,2-integrering
- Populära bibliotek med öppen källkod, optimerade för prestanda och tillförlitlighet:
- ADAM
- ANVÄNDAS
- Hadoop-BAM
- Populära kommando rads verktyg:
- samtools
- Referens data (grch37 eller 38, kända SNP-platser)
En fullständig lista över bibliotek och versioner som ingår finns i viktig information för Databricks runtime för genomik .
Krav
Databricks Runtime för genomik måste vara aktiveratpå din Azure Databricks-arbetsyta.
Skapa ett kluster med hjälp av Databricks Runtime för genomik
När du skapar ett klusterväljer du en Databricks runtime för genomiks version från list rutan Databricks runtime version.