Variant Annotation using Pipe Transformer

Hinweis

Databricks Runtime für Genomics wurde als veraltet eingestuft. Von Databricks werden keine neuen Releases vom Typ „Databricks Runtime für Genomics“ mehr erstellt. Die Unterstützung für Databricks Runtime für Genomics wird am 24. September 2022 eingestellt, wenn auch der Support für Databricks Runtime für Genomics 7.3 LTS endet. Ab diesem Zeitpunkt kann Databricks Runtime für Genomics beim Erstellen eines Clusters nicht mehr ausgewählt werden. Weitere Informationen zur Databricks Runtime-Veraltungsrichtlinie und zum Zeitplan finden Sie unter Unterstützte Releases von Databricks Runtime und Supportzeitplan. Bioinformatische Bibliotheken, die Teil der Runtime waren, wurden als Docker-Container veröffentlicht, die Sie auf der Seite [ProjectGlow Dockerhub][dockerhub] finden.

Jede Anmerkungsmethode kann mithilfe von Pipe Transformer von Glow für Variantendaten verwendet werden.

Die VEP-Anmerkung wird beispielsweise ausgeführt, indem Anmerkungsdatenquellen (der Cache )auf jeden Knoten in einem Cluster heruntergeladen werden und das VEP-Befehlszeilenskript mit dem Pipetransformator mithilfe eines Skripts wie der folgenden Zelle aufruft.

import glow
import json

input_vcf = "/databricks-datasets/hail/data-001/1kg_sample.vcf.bgz"
input_df = spark.read.format("vcf").load(input_vcf)
cmd = json.dumps([
  "/opt/vep/src/ensembl-vep/vep",
  "--dir_cache", "/mnt/dbnucleus/dbgenomics/grch37_merged_vep_96",
  "--fasta", "/mnt/dbnucleus/dbgenomics/grch37_merged_vep_96/data/human_g1k_v37.fa",
  "--assembly", "GRCh37",
  "--format", "vcf",
  "--output_file", "STDOUT",
  "--no_stats",
  "--cache",
  "--offline",
  "--vcf",
  "--merged"])
output_df = glow.transform("pipe", input_df, cmd=cmd, input_formatter='vcf', in_vcf_header=input_vcf, output_formatter='vcf')
output_df.write.format("delta").save("dbfs:/mnt/vep-pipe")