Variantanteckningar med Pipe Transformer

Anteckning

Databricks Runtime för Genomics är inaktuell. Databricks bygger inte längre nya Databricks Runtime for Genomics-versioner och tar bort stödet för Databricks Runtime for Genomics den 24 september 2022 när Databricks Runtime for Genomics 7.3 LTS-supporten upphör. Då är Databricks Runtime för Genomics inte längre tillgängligt för val när du skapar ett kluster. Mer information om policyn och schemat för utfasningen av Databricks Runtime finns i Databricks Runtime-versioner som stöds och supportschema. Bioinformatics-bibliotek som var en del av körningen har släppts som Docker-containrar, som du hittar på sidan [ProjectGlow Dockerhub][dockerhub].

Alla anteckningsmetod kan användas på variantdata med hjälp av Glows Pipe Transformer.

TILL exempel utförs VEP-anteckningar genom att ladda ned anteckningsdatakällor (cachen) till varje nod i ett kluster och anropa VEP-kommandoradsskriptet med Pipe Transformer med hjälp av ett skript som liknar följande cell.

import glow
import json

input_vcf = "/databricks-datasets/hail/data-001/1kg_sample.vcf.bgz"
input_df = spark.read.format("vcf").load(input_vcf)
cmd = json.dumps([
  "/opt/vep/src/ensembl-vep/vep",
  "--dir_cache", "/mnt/dbnucleus/dbgenomics/grch37_merged_vep_96",
  "--fasta", "/mnt/dbnucleus/dbgenomics/grch37_merged_vep_96/data/human_g1k_v37.fa",
  "--assembly", "GRCh37",
  "--format", "vcf",
  "--output_file", "STDOUT",
  "--no_stats",
  "--cache",
  "--offline",
  "--vcf",
  "--merged"])
output_df = glow.transform("pipe", input_df, cmd=cmd, input_formatter='vcf', in_vcf_header=input_vcf, output_formatter='vcf')
output_df.write.format("delta").save("dbfs:/mnt/vep-pipe")