Databricks Runtime 6,4 pour la génomique (non prise en charge)

Databricks a publié cette image en février 2020.

Databricks Runtime pour la génomique (Databricks Runtime génomique) est une variante de Databricks Runtime 6,4 (non prise en charge) optimisée pour l’utilisation de données génomiques et biomédicales. Il s’agit d’un composant de la plateforme d’analytique unifiée Databricks pour la génomique.

Notes

L’utilisation de Databricks Runtime pour Genomics est déconseillée. Databricks ne génère plus de nouvelles versions de Databricks Runtime pour Genomics et supprimera le support de Databricks Runtime pour Genomics le 24 septembre 2022, quand le support de Databricks Runtime pour Genomics 7.3 LTS prendra fin. À compter de cette date, Databricks Runtime pour Genomics ne sera plus disponible à la sélection lorsque vous créerez un cluster. Pour plus d’informations sur la politique et le calendrier de dépréciation de Databricks Runtime, consultez Versions prises en charge du runtime Databricks et calendrier du support. Les bibliothèques bio-informatique qui faisaient partie du runtime ont été publiées sous forme de conteneurs d’ancrage, que vous pouvez trouver dans la page [ProjectGlow Dockerhub] [Dockerhub].

Pour plus d’informations, notamment des instructions sur la création d’un Databricks Runtime pour le cluster génomique, consultez Databricks Runtime pour la génomique (déconseillé). Pour plus d’informations sur le développement d’applications génomiques, consultez le Guide génomique.

Nouvelles fonctionnalités

Databricks Runtime 6,4 pour la génomique est basé sur Databricks Runtime 6,4. Pour plus d’informations sur les nouveautés de Databricks Runtime 6,4, consultez les notes de publication Databricks Runtime 6,4 (non prises en charge) .

Personnalisations du pipeline DNASeq

DNASeq dans Databricks Runtime 6,4 pour la génomique peut désormais être spécifiques. Les utilisateurs de pipeline peuvent désormais désactiver de manière sélective toute combinaison légitime de l’alignement de lecture, variant étapes d’appel et d’annotation variant. Les utilisateurs peuvent également effectuer un alignement de lecture d’un seul bout.

API Python et Scala

La version de lueur comprise dans Databricks Runtime 6,4 pour la génomique inclut des API Python et Scala pour fonctions précédemment exposées uniquement via des expressions SQL. Ces fonctions sont disponibles pour les opérations tableau, en fournissant amélioration de la sécurité au moment de la compilation.

Améliorations

Schéma de variante aplati

DNASeq et données de variantes de la sortie des pipelines de génotype communs dans un schéma aplati à Delta Lake.

Normalisation de variante améliorée

La normalisation de la variante en lueur et Databricks Runtime 6,4 pour la génomique est d’environ 2,5 x plus rapide que le version de Databricks Runtime 6,3 pour la génomique. le nouvel normaliseur peut être appelé comme transformateur, ainsi qu’une fonction SQL, conserve le schéma d’origine et fournit une tolérance de panne améliorée.

Bibliothèques

Les bibliothèques suivantes incluses dans Databricks Runtime 6,4 pour la génomique diffèrent de celles incluses dans Databricks Runtime 6,4.

Bibliothèque Version
ADAM 0.28.0
Hadoop-BAM 7.9.2
Grêle 0.2.26
GATK 4.0.11.0
samtools 1,9
VEP 96