파이프 변환기를 사용 하는 변형 주석

참고

Genomics용 Databricks Runtime은 사용되지 않습니다. Databricks는 더 이상 Genomics용 Databricks Runtime 릴리스를 빌드하지 않으며, Genomics용 Databricks Runtime 7.3 LTS 지원이 종료되는 2022년 9월 24일에 Genomics용 Databricks Runtime에 대한 지원을 제거합니다. 그때부터는 클러스터를 만들 때 Genomics용 Databricks Runtime을 더 이상 선택할 수 없습니다. Databricks Runtime 사용 중단 정책 및 일정에 대한 자세한 내용은 지원되는 Databricks Runtime 릴리스 및 지원 일정을 참조하세요. 런타임에 포함 된 생물 정보학 라이브러리는 Docker 컨테이너로 릴리스 되었으며 [ProjectGlow Dockerhub] [dockerhub] 페이지에서 찾을 수 있습니다.

모든 주석 메서드는 광선 파이프 변환기를 사용 하 여 변형 데이터에서 사용할 수 있습니다.

예를 들어 VEP 주석은 클러스터의 각 노드에 대 한 주석 데이터 원본 ( 캐시)을 다운로드 하 고 다음 셀과 비슷한 스크립트를 사용 하 여 파이프 변환기로 vep 명령줄 스크립트 를 호출 하 여 수행 됩니다.

import glow
import json

input_vcf = "/databricks-datasets/hail/data-001/1kg_sample.vcf.bgz"
input_df = spark.read.format("vcf").load(input_vcf)
cmd = json.dumps([
  "/opt/vep/src/ensembl-vep/vep",
  "--dir_cache", "/mnt/dbnucleus/dbgenomics/grch37_merged_vep_96",
  "--fasta", "/mnt/dbnucleus/dbgenomics/grch37_merged_vep_96/data/human_g1k_v37.fa",
  "--assembly", "GRCh37",
  "--format", "vcf",
  "--output_file", "STDOUT",
  "--no_stats",
  "--cache",
  "--offline",
  "--vcf",
  "--merged"])
output_df = glow.transform("pipe", input_df, cmd=cmd, input_formatter='vcf', in_vcf_header=input_vcf, output_formatter='vcf')
output_df.write.format("delta").save("dbfs:/mnt/vep-pipe")