Tumor/Normal パイプライン Tumor/Normal Pipeline

Azure Databricks tumor/normal パイプラインは、 MuTect2 variant 呼び出し元を使用した短い読み取り配置と somatic バリアント呼び出しのためのGATK ベストプラクティス準拠のパイプラインです。The Azure Databricks tumor/normal pipeline is a GATK best practices compliant pipeline for short read alignment and somatic variant calling using the MuTect2 variant caller.

チュートリアルWalkthrough

パイプラインは、次の手順で構成されています。The pipeline consists of the following steps:

  1. BWA-MEM を使用した通常のサンプル配置。Normal sample alignment using BWA-MEM.
  2. Tumor を使用したサンプルの配置。Tumor sample alignment using BWA-MEM.
  3. MuTect2 を使用してを呼び出すバリアントです。Variant calling with MuTect2.

セットアップSetup

パイプラインは、Azure Databricks ジョブとして実行されます。The pipeline is run as an Azure Databricks job. ほとんどの場合、Azure Databricks ソリューション設計者が、初期ジョブを設定するために作業を行います。Most likely, an Azure Databricks solutions architect will work with you to set up the initial job. 必要な詳細は次のとおりです。The necessary details are:

  • クラスター構成では、Genomics に Databricks Runtime を使用する必要があります。The cluster configuration should use Databricks Runtime for Genomics.
  • タスクは、このページの下部にある tumor/normal パイプラインノートブックである必要があります。The task should be the tumor/normal pipeline notebook found at the bottom of this page.
  • 最適なパフォーマンスを得るには、少なくとも60GB のメモリを備えたコンピューティング最適化された Vm を使用します。For best performance, use the compute optimized VMs with at least 60GB of memory. Standard_F32s_v2をお勧めします。We recommend Standard_F32s_v2.
  • 基本品質スコア再調整を実行している場合は、この操作にはより多くのメモリが必要であるため、代わりに汎用 (Standard_D32s_v3) インスタンスを使用してください。If you’re running base quality score recalibration, use general purpose (Standard_D32s_v3) instances instead since this operation requires more memory.

ParametersParameters

パイプラインは、その動作を制御するパラメーターを受け入れます。The pipeline accepts parameters that control its behavior. 最も重要で変更が多いパラメーターについては、こちらを参照してください。The most important and commonly changed parameters are documented here. 使用可能なすべてのパラメーターとその使用法に関する情報を表示するには、パイプラインノートブックの最初のセルを実行します。To view all available parameters and their usage information, run the first cell of the pipeline notebook. 新しいパラメーターは定期的に追加されます。New parameters are added regularly. パラメーターは、すべての実行または実行ごとに設定できます。Parameters can be set for all runs or per-run.

ParameterParameter DefaultDefault descriptionDescription
manifestmanifest なしn/a 入力を記述するマニフェストファイルのパス。The path of the manifest file describing the input.
outputoutput なしn/a パイプラインの出力を書き込むパス。The path where pipeline output should be written.
replayModereplayMode skipskip * skipの場合、出力が既に存在する場合、ステージはスキップされます。* If skip, stages will be skipped if output already exists.
* overwrite場合、既存の出力は削除されます。* If overwrite, existing output will be deleted.
exportVCFexportVCF falsefalse True の場合、パイプラインは、結果を、ファイルおよびデルタに書き込みます。If true, the pipeline writes results to a VCF file as well as Delta.

ヒント

ランタイムを最適化するには、Spark 構成の spark.sql.shuffle.partitions をクラスターのコア数の3倍に設定します。To optimize runtime, set spark.sql.shuffle.partitions in the Spark config to three times the number of cores of the cluster.

参照ゲノムReference genomes

環境変数を使用して reference ゲノムを構成する必要があります。You must configure the reference genome using an environment variable. GRCh37 を使用するには、次のように環境変数を設定します。To use GRCh37, set an environment variable like this:

refGenomeId=grch37

GRCh38 を使用するには、grch37grch38 に変更します。To use GRCh38, change grch37 to grch38.

マニフェストの形式Manifest format

マニフェストは、入力 FASTQ または BAM ファイルの検索場所を記述する CSV ファイルです。The manifest is a CSV file describing where to find the input FASTQ or BAM files. 例:An example:

pair_id,file_path,sample_id,label,paired_end,read_group_id
HG001,*_R1_*.normal.fastq.bgz,HG001_normal,normal,1,read_group_normal
HG001,*_R2_*.normal.fastq.bgz,HG001_normal,normal,2,read_group_normal
HG001,*_R1_*.tumor.fastq.bgz,HG001_tumor,1,tumor,read_group_tumor
HG001,*_R2_*.tumor.fastq.bgz,HG001_tumor,2,tumor,read_group_tumor

入力が、整列されていない BAM ファイルで構成されている場合は、paired_end フィールドを省略する必要があります。If your input consists of unaligned BAM files, you should omit the paired_end field:

pair_id,file_path,sample_id,label,paired_end,read_group_id
HG001,*.normal.bam,HG001_normal,normal,,read_group_tumor
HG001,*.tumor.bam,HG001_tumor,tumor,,read_group_normal

特定の個人の tumor および normal サンプルは、pair_id フィールド別にグループ化されています。The tumor and normal samples for a given individual are grouped by the pair_id field. Tumor と通常のサンプル名読み取りグループ名は、ペア内で異なる必要があります。The tumor and normal sample names read group names must be different within a pair.

ヒント

各行の file_path フィールドには、絶対パスまたはマニフェストを基準とした相対パスを指定できます。The file_path field in each row may be an absolute path or a path relative to the manifest. Glob (*) を含めて、多くのファイルに一致させることができます。You can include globs (*) to match many files.

使用状況に関する追加情報とトラブルシューティングAdditional usage info and troubleshooting

Tumor/normal パイプラインは、多くの操作の詳細を他の Azure Databricks パイプラインと共有します。The tumor/normal pipeline shares many operational details with the other Azure Databricks pipelines. 出力形式の構造、プログラムで実行するためのヒント、カスタム参照の設定手順、一般的な問題など、使用方法に関する詳細については、「 Dnaseq パイプライン」を参照してください。For more detailed usage information, such as output format structure, tips for running programmatically, steps for setting up custom reference genomes, and common issues, see DNASeq Pipeline.

Tumor/通常のパイプラインノートブックTumor/normal pipeline notebook

ノートブックを取得するGet notebook