Tumor/Normale PipelineTumor/Normal pipeline

Die Azure Databricks Tumor/normale Pipeline ist eine mit bewährten Methoden kompatible gatk -Pipeline für die kurze Lese Ausrichtung und die Verwendung des MuTect2 Variant-Aufrufers.The Azure Databricks tumor/normal pipeline is a GATK best practices compliant pipeline for short read alignment and somatic variant calling using the MuTect2 variant caller.

Exemplarische VorgehensweiseWalkthrough

Die Pipeline besteht aus den folgenden Schritten:The pipeline consists of the following steps:

  1. Normale Beispiel Ausrichtung mit BWA-Mem.Normal sample alignment using BWA-MEM.
  2. Die Ausrichtung von Tumor Beispielen mithilfe von BWA-Mem.Tumor sample alignment using BWA-MEM.
  3. Variant, der mit MuTect2 aufgerufen wird.Variant calling with MuTect2.

EinrichtenSetup

Die Pipeline wird als Azure Databricks Auftrag ausgeführt.The pipeline is run as an Azure Databricks job. Sie können eine Cluster Richtlinie einrichten, um die Konfiguration zu speichern:You can set up a cluster policy to save the configuration:

{
  "num_workers": {
    "type": "unlimited",
    "defaultValue": 13
  },
  "node_type_id": {
    "type": "unlimited",
    "defaultValue": "Standard_F32s_v2"
  },
  "spark_env_vars.refGenomeId": {
    "type": "unlimited",
    "defaultValue": "grch38"
  },
  "spark_version": {
    "type": "regex",
    "pattern": ".*-hls.*",
    "defaultValue": "7.0.x-hls-scala2.12"
  }
}
  • Für die Cluster Konfiguration sollte Databricks Runtime für Genomics verwendet werden.The cluster configuration should use Databricks Runtime for Genomics.
  • Die Aufgabe sollte das im unteren Bereich dieser Seite gefundene Tumor/normale Notebook sein.The task should be the tumor/normal notebook found at the bottom of this page.
  • Verwenden Sie für eine optimale Leistung die computeoptimierten VMS mit mindestens 60 GB Arbeitsspeicher.For best performance, use the compute optimized VMs with at least 60GB of memory. Wir empfehlen Standard_F32s_v2 VMS.We recommend Standard_F32s_v2 VMs.
  • Wenn Sie die Basis Qualität der Ergebnis Wiederholung ausführen, verwenden Sie stattdessen allgemeine Instanzen (Standard_D32s_v3), da dieser Vorgang mehr Arbeitsspeicher erfordert.If you’re running base quality score recalibration, use general purpose (Standard_D32s_v3) instances instead since this operation requires more memory.

ParameterParameters

Die Pipeline akzeptiert Parameter, die ihr Verhalten steuern.The pipeline accepts parameters that control its behavior. Die wichtigsten und am häufigsten geänderten Parameter werden hier dokumentiert.The most important and commonly changed parameters are documented here. Wenn Sie alle verfügbaren Parameter und deren Verwendungs Informationen anzeigen möchten, führen Sie die erste Zelle des Pipeline Notebooks aus.To view all available parameters and their usage information, run the first cell of the pipeline notebook. Neue Parameter werden regelmäßig hinzugefügt.New parameters are added regularly. Parameter können für alle Ausführungen oder pro Testlauf festgelegt werden.Parameters can be set for all runs or per-run.

ParameterParameter StandardDefault BESCHREIBUNGDescription
manifestmanifest n/a Das Manifest, in dem die Eingabe beschrieben wird.The manifest describing the input.
outputoutput n/a Der Pfad, in den die Pipeline Ausgabe geschrieben werden soll.The path where pipeline output should be written.
replaymodereplayMode skipskip * Wenn skip , werden Phasen übersprungen, wenn die Ausgabe bereits vorhanden ist.* If skip, stages will be skipped if output already exists.
* Wenn overwrite , wird die vorhandene Ausgabe gelöscht.* If overwrite, existing output will be deleted.
exportvcfexportVCF falsefalse True gibt an, dass die Pipeline Ergebnisse in eine VCF-Datei und eine Delta-Datei schreibt.If true, the pipeline writes results to a VCF file as well as Delta.
persampletimeoutperSampleTimeout 12 Stunden12h Ein Timeout, das pro Stichprobe angewendet wird.A timeout applied per sample. Nach Erreichen dieses Timeouts wird die Pipeline mit dem nächsten Beispiel fortgesetzt.After reaching this timeout, the pipeline continues on to the next sample. Der Wert dieses Parameters muss eine Zeit überschreitungs Einheit enthalten: ' für Sekunden, 'm ' für Minuten oder ' h ' für Stunden.The value of this parameter must include a timeout unit: ‘s’ for seconds, ‘m’ for minutes, or ‘h’ for hours. "60M" führt z. b. zu einem Timeout von 60 Minuten.For example, ‘60m’ will result in a timeout of 60 minutes.

Tipp

Legen Sie zum Optimieren der Laufzeit spark.sql.shuffle.partitions in der Spark-Konfiguration das Dreifache der Anzahl der Kerne des Clusters fest.To optimize runtime, set spark.sql.shuffle.partitions in the Spark config to three times the number of cores of the cluster.

ReferenzgenomeReference genomes

Sie müssen das Referenz-Genom mithilfe einer Umgebungsvariablenkonfigurieren.You must configure the reference genome using an environment variable. Um GRCh37 zu verwenden, legen Sie eine Umgebungsvariable wie folgt fest:To use GRCh37, set an environment variable like this:

refGenomeId=grch37

Um GRCh38 zu verwenden, ändern grch37 Sie in grch38 .To use GRCh38, change grch37 to grch38.

Informationen zur Verwendung eines benutzerdefinierten Referenz-Genom finden Sie unter Anweisungen in benutzerdefinierten Referenz-Genome.To use a custom reference genome, see instructions in Custom reference genomes.

ManifestformatManifest format

Hinweis

Manifestressourcen werden in Databricks Runtime 6,6 für Genomics und höher unterstützt.Manifest blobs are supported in Databricks Runtime 6.6 for Genomics and above.

Das Manifest ist eine CSV-Datei oder ein BLOB, in der beschrieben wird, wo die Eingabe-fastq-oder BAM-Dateien gesuchtThe manifest is a CSV file or blob describing where to find the input FASTQ or BAM files. Beispiel:An example:

pair_id,file_path,sample_id,label,paired_end,read_group_id
HG001,*_R1_*.normal.fastq.bgz,HG001_normal,normal,1,read_group_normal
HG001,*_R2_*.normal.fastq.bgz,HG001_normal,normal,2,read_group_normal
HG001,*_R1_*.tumor.fastq.bgz,HG001_tumor,1,tumor,read_group_tumor
HG001,*_R2_*.tumor.fastq.bgz,HG001_tumor,2,tumor,read_group_tumor

Wenn Ihre Eingabe aus nicht ausgerichteten BAM-Dateien besteht, sollten Sie das Feld weglassen paired_end :If your input consists of unaligned BAM files, you should omit the paired_end field:

pair_id,file_path,sample_id,label,paired_end,read_group_id
HG001,*.normal.bam,HG001_normal,normal,,read_group_tumor
HG001,*.tumor.bam,HG001_tumor,tumor,,read_group_normal

Die Tumor-und normal Beispiele für eine bestimmte Person werden nach dem- pair_id Feld gruppiert.The tumor and normal samples for a given individual are grouped by the pair_id field. Die Namen der Namen der Tumor-und normalen Beispiel Namen müssen sich innerhalb eines Paars unterscheiden.The tumor and normal sample names read group names must be different within a pair.

Tipp

Wenn das angegebene Manifest eine Datei ist, file_path kann das Feld in jeder Zeile ein absoluter Pfad oder ein Pfad relativ zur Manifest-Datei sein.If the provided manifest is a file, the file_path field in each row may be an absolute path or a path relative to the manifest file. Wenn das angegebene Manifest ein BLOB ist, file_path muss das Feld ein absoluter Pfad sein.If the provided manifest is a blob, the file_path field must be an absolute path. Sie können glosb einschließen (*) , um viele Dateien abzugleichen.You can include globs (*) to match many files.

Zusätzliche Informationen zur Verwendung und ProblembehandlungAdditional usage info and troubleshooting

Die Tumor/normale Pipeline nutzt viele Betriebs Details mit den anderen Azure Databricks Pipelines.The tumor/normal pipeline shares many operational details with the other Azure Databricks pipelines. Ausführlichere Informationen zur Verwendung, wie z. b. die Ausgabe Formatstruktur, Tipps zur programmgesteuerten Ausführung, Schritte zum Einrichten von benutzerdefinierten Verweis-und häufig ausgegebene Probleme finden Sie unter dnaseq-Pipeline.For more detailed usage information, such as output format structure, tips for running programmatically, steps for setting up custom reference genomes, and common issues, see DNASeq pipeline.

Hinweis

Die Pipeline wurde in Databricks Runtime 7,3 LTS für Genomics und höher von tnabq in mugenq umbenannt.The pipeline was renamed from TNSeq to MutSeq in Databricks Runtime 7.3 LTS for Genomics and above.

Muasq-Pipeline NotebookMutSeq pipeline notebook

Notebook abrufenGet notebook

Tnabq-Pipeline Notebook (Legacy)TNSeq pipeline notebook (Legacy)

Notebook abrufenGet notebook