Canalización normal/tumoral

Nota

Databricks Runtime para Genomics está en desuso. Databricks ya no compila nuevas versiones de Databricks Runtime para Genomics y eliminarán la compatibilidad con Databricks Runtime para Genomics el 24 de septiembre de 2022, cuando finaliza el soporte técnico de Databricks Runtime para Genomics 7.3 LTS. En ese momento Databricks Runtime para Genomics dejará de estar disponible para elegirlo al crear un clúster. Para más información sobre la programación y la directiva de entrada en desuso de Databricks Runtime, consulte el apartado sobre la programación de soporte y las versiones de Databricks Runtime que reciben soporte técnico.

La Azure Databricks canalización normal es una canalización compatible con los procedimientos recomendados de GATK para la alineación de lectura corta y la llamada a variantes somaticas mediante el llamador de variante MuTect2.

Tutorial

La canalización consta de los pasos siguientes:

  1. Alineación de muestra normal mediante BWA-MEM.
  2. Alineación de muestras de Resalte mediante BWA-MEM.
  3. Variante que llama a con MuTect2.

Configurar

La canalización se ejecuta como un Azure Databricks trabajo. Puede configurar una directiva de clúster para guardar la configuración:

{
  "num_workers": {
    "type": "unlimited",
    "defaultValue": 13
  },
  "node_type_id": {
    "type": "unlimited",
    "defaultValue": "Standard_F32s_v2"
  },
  "spark_env_vars.refGenomeId": {
    "type": "unlimited",
    "defaultValue": "grch38"
  },
  "spark_version": {
    "type": "regex",
    "pattern": ".*-hls.*",
    "defaultValue": "7.4.x-hls-scala2.12"
  }
}
  • La configuración del clúster debe usar Databricks Runtime para Genomics.
  • La tarea debe ser el cuaderno normal o de lectura que se encuentra en la parte inferior de esta página.
  • Para obtener el mejor rendimiento, use las máquinas virtuales optimizadas para proceso con al menos 60 GB de memoria. Se recomienda Standard_F32s_v2 máquinas virtuales.
  • Si está ejecutando la reeserción de puntuación de calidad base, use instancias de uso general (Standard_D32s_v3) en su lugar, ya que esta operación requiere más memoria.

Genomas de referencia

Debe configurar el genoma de referencia mediante una variable de entorno. Para usar GRCh37, establezca la variable de entorno:

refGenomeId=grch37

Para usar GRCh38, cambie grch37 a grch38 .

Para usar un genoma de referencia personalizado, consulte las instrucciones de Genomas de referencia personalizados.

Parámetros

La canalización acepta parámetros que controlan su comportamiento. Aquí se documentan los parámetros más importantes y modificados habitualmente. Para ver todos los parámetros disponibles y su información de uso, ejecute la primera celda del cuaderno de canalización. Los nuevos parámetros se agregan con regularidad. Después de importar el cuaderno y establecerlo como una tarea de trabajo, puede establecer estos parámetros para todas las ejecuciones o por ejecución.

Parámetro Valor predeterminado Descripción
manifest N/D Manifiesto que describe la entrada.
output N/D Ruta de acceso donde se debe escribir la salida de la canalización.
replayMode skip * Si skip es , las fases se omitirán si la salida ya existe.
* Si overwrite es , se eliminará la salida existente.
exportVCF false Si es true, la canalización escribe los resultados en un archivo VCF, así como en Delta.
perSampleTimeout 12h Tiempo de espera aplicado por muestra. Después de alcanzar este tiempo de espera, la canalización continúa con el ejemplo siguiente. El valor de este parámetro debe incluir una unidad de tiempo de espera: 's' para segundos, 'm' para minutos o 'h' para horas. Por ejemplo, "60 m" da como resultado un tiempo de espera de 60 minutos.

Sugerencia

Para optimizar el tiempo de ejecución, establezca la spark.sql.shuffle.partitions configuración de Spark en tres veces el número de núcleos del clúster.

Formato del manifiesto

Nota

Los blobs de manifiesto se admiten en Databricks Runtime 6.6 para Genomics y versiones posteriores.

El manifiesto es un archivo CSV o blob que describe dónde encontrar los archivos FASTQ o BAM de entrada. Por ejemplo:

pair_id,file_path,sample_id,label,paired_end,read_group_id
HG001,*_R1_*.normal.fastq.bgz,HG001_normal,normal,1,read_group_normal
HG001,*_R2_*.normal.fastq.bgz,HG001_normal,normal,2,read_group_normal
HG001,*_R1_*.tumor.fastq.bgz,HG001_tumor,1,tumor,read_group_tumor
HG001,*_R2_*.tumor.fastq.bgz,HG001_tumor,2,tumor,read_group_tumor

Si la entrada consta de archivos BAM no alineados, debe omitir el paired_end campo :

pair_id,file_path,sample_id,label,paired_end,read_group_id
HG001,*.normal.bam,HG001_normal,normal,,read_group_tumor
HG001,*.tumor.bam,HG001_tumor,tumor,,read_group_normal

El campo agrupa las muestras normales y de un individuo pair_id determinado. Los nombres de grupo de lectura y los nombres de ejemplo normales deben ser diferentes dentro de un par.

Sugerencia

Si el manifiesto proporcionado es un archivo, el campo de cada fila puede ser una ruta de acceso absoluta o una ruta de acceso file_path relativa al archivo de manifiesto. Si el manifiesto proporcionado es un blob, file_path el campo debe ser una ruta de acceso absoluta. Puede incluir globs para (*) que coincidan con muchos archivos.

Información de uso adicional y solución de problemas

La canalización normal/normal comparte muchos detalles operativos con el resto de Azure Databricks canalizaciones. Para obtener información de uso más detallada, como la estructura del formato de salida, las sugerencias para ejecutar mediante programación, los pasos para configurar genomas de referencia personalizados y problemas comunes, vea DnaSeq pipeline.

Nota

Se ha cambiado el nombre de la canalización de TNSeq a MutSeq en Databricks Runtime 7.3 LTS para Genomics y posteriores.

Cuaderno de canalización de MutSeq

Obtener el cuaderno

Cuaderno de canalización de TNSeq (heredado)

Obtener el cuaderno