Anotação variante usando o transformador de tubos

Nota

Databricks Runtime for Genomics é depreciado. A Databricks já não está a construir novos databricks Runtime para lançamentos de Gennomics e removerá o suporte para databricks Runtime for Genomics em 24 de setembro de 2022, quando databricks Runtime for Genomics 7.3 LTS support termina. Nessa altura, o tempo de execução da Databricks para a Genómica deixará de estar disponível para seleção quando criar um cluster. Para obter mais informações sobre a política e o agendamento da preterição do Databricks Runtime, veja Versões de runtime do Databricks suportadas e agendamento do suporte. As bibliotecas de bioinformática que faziam parte do tempo de funcionação foram lançadas como Docker Containers, que pode encontrar na página [ProjectGlow Dockerhub][Dockerhub].

Qualquer método de anotação pode ser utilizado em dados variantes utilizando o Pipe Transformer do Glow.

Por exemplo, a anotação VEP é realizada descarregando fontes de dados de anotação (a cache)para cada nó em um cluster e chamando o script de linha de comando VEP com o Pipe Transformer usando um script semelhante ao seguinte célula.

import glow
import json

input_vcf = "/databricks-datasets/hail/data-001/1kg_sample.vcf.bgz"
input_df = spark.read.format("vcf").load(input_vcf)
cmd = json.dumps([
  "/opt/vep/src/ensembl-vep/vep",
  "--dir_cache", "/mnt/dbnucleus/dbgenomics/grch37_merged_vep_96",
  "--fasta", "/mnt/dbnucleus/dbgenomics/grch37_merged_vep_96/data/human_g1k_v37.fa",
  "--assembly", "GRCh37",
  "--format", "vcf",
  "--output_file", "STDOUT",
  "--no_stats",
  "--cache",
  "--offline",
  "--vcf",
  "--merged"])
output_df = glow.transform("pipe", input_df, cmd=cmd, input_formatter='vcf', in_vcf_header=input_vcf, output_formatter='vcf')
output_df.write.format("delta").save("dbfs:/mnt/vep-pipe")