Pipeline Tumor/Normal

O tumor/gasoduto normal Azure Databricks é um gasoduto compatível com as melhores práticas do GATK para alinhamento de leitura curta e variante somática usando o chamador variante MuTect2.

Instruções

O gasoduto consiste nos seguintes passos:

  1. Alinhamento normal da amostra utilizando o BWA-MEM.
  2. Alinhamento da amostra do tumor usando BWA-MEM.
  3. Variante chamando com MuTect2.

Configuração

O oleoduto é executado como um trabalho da Azure Databricks. Pode configurar uma política de cluster para salvar a configuração:

{
  "num_workers": {
    "type": "unlimited",
    "defaultValue": 13
  },
  "node_type_id": {
    "type": "unlimited",
    "defaultValue": "Standard_F32s_v2"
  },
  "spark_env_vars.refGenomeId": {
    "type": "unlimited",
    "defaultValue": "grch38"
  },
  "spark_version": {
    "type": "regex",
    "pattern": ".*-hls.*",
    "defaultValue": "7.4.x-hls-scala2.12"
  }
}
  • A configuração do cluster deve utilizar databricks Runtime para Genómica.
  • A tarefa deve ser o tumor/caderno normal encontrado na parte inferior desta página.
  • Para um melhor desempenho, utilize os VMs otimizados compute compute com pelo menos 60GB de memória. Recomendamos Standard_F32s_v2 VMs.
  • Se estiver a executar uma recalibração de pontuação de qualidade de base, utilize casos gerais (Standard_D32s_v3), uma vez que esta operação requer mais memória.

Genomas de referência

Deve configurar o genoma de referência utilizando uma variável ambiental. Para utilizar o GRCh37, desaprote a variável ambiental:

refGenomeId=grch37

Para utilizar o GRCh38, mude grch37 para grch38 .

Para utilizar um genoma de referência personalizado, consulte instruções em genomas de referência personalizados.

Parâmetros

O oleoduto aceita parâmetros que controlam o seu comportamento. Os parâmetros mais importantes e geralmente alterados estão documentados aqui. Para visualizar todos os parâmetros disponíveis e as suas informações de utilização, execute a primeira célula do caderno de gasodutos. Novos parâmetros são adicionados regularmente. Depois de importar o caderno e defini-lo como uma tarefa de trabalho, pode definir estes parâmetros para todas as corridas ou por corrida.

Parâmetro Predefinição Description
manifest n/a O manifesto que descreve a entrada.
saída n/a O caminho onde deve ser escrita a saída do gasoduto.
replayMode saltar * skip Se, as etapas forem ignoradas se a saída já existir.
* Se overwrite a saída existente for eliminada.
exportaçãoVCF false Se for verdade, o oleoduto escreve resultados num ficheiro VCF, bem como na Delta.
perSampleTimeout 12h Um tempo limite aplicado por amostra. Depois de alcançar este intervalo, o gasoduto continua para a próxima amostra. O valor deste parâmetro deve incluir uma unidade de tempo limite: 's' por segundos, 'm' durante minutos ou 'h' durante horas. Por exemplo, '60m' resulta num intervalo de tempo de 60 minutos.

Dica

Para otimizar o tempo de execução, desaperte a spark.sql.shuffle.partitions configuração spark para três vezes o número de núcleos do cluster.

Formato do manifesto

Nota

As bolhas manifestas são suportadas em Databricks Runtime 6.6 para Genómica e acima.

O manifesto é um ficheiro CSV ou blob que descreve onde encontrar os ficheiros FASTQ ou BAM de entrada. Por exemplo:

pair_id,file_path,sample_id,label,paired_end,read_group_id
HG001,*_R1_*.normal.fastq.bgz,HG001_normal,normal,1,read_group_normal
HG001,*_R2_*.normal.fastq.bgz,HG001_normal,normal,2,read_group_normal
HG001,*_R1_*.tumor.fastq.bgz,HG001_tumor,1,tumor,read_group_tumor
HG001,*_R2_*.tumor.fastq.bgz,HG001_tumor,2,tumor,read_group_tumor

Se a sua entrada consistir em ficheiros BAM não alinhados, deverá omitir o paired_end campo:

pair_id,file_path,sample_id,label,paired_end,read_group_id
HG001,*.normal.bam,HG001_normal,normal,,read_group_tumor
HG001,*.tumor.bam,HG001_tumor,tumor,,read_group_normal

O tumor e as amostras normais para um dado indivíduo são agrupadas pelo pair_id campo. O tumor e os nomes normais da amostra lêem nomes de grupo devem ser diferentes dentro de um par.

Dica

Se o manifesto fornecido for um ficheiro, o file_path campo em cada linha pode ser um caminho absoluto ou um caminho em relação ao ficheiro manifesto. Se o manifesto fornecido é uma bolha, o file_path campo deve ser um caminho absoluto. Pode incluir globs (*) para combinar com muitos ficheiros.

Informações de utilização adicionais e resolução de problemas

O tumor/gasoduto normal partilha muitos detalhes operacionais com os outros oleodutos Azure Databricks. Para obter informações de utilização mais detalhadas, tais como estrutura de formato de saída, dicas para executar programáticamente, passos para configurar genomas de referência personalizados e questões comuns, consulte o pipeline DNASeq.

Nota

O gasoduto foi renomeado de TNSeq para MutSeq em Databricks Runtime 7.3 LTS para Genómica e acima.

Caderno de gasoduto MutSeq

Obter o bloco de notas

Caderno de gasoduto TNSeq (Legado)

Obter o bloco de notas