Pipeline Tumor/Normal

Nota

Databricks Runtime for Genomics é depreciado. A Databricks já não está a construir novos databricks Runtime para lançamentos de Gennomics e removerá o suporte para databricks Runtime for Genomics em 24 de setembro de 2022, quando databricks Runtime for Genomics 7.3 LTS support termina. Nessa altura, o tempo de execução da Databricks para a Genómica deixará de estar disponível para seleção quando criar um cluster. Para obter mais informações sobre a política e o agendamento da preterição do Databricks Runtime, veja Versões de runtime do Databricks suportadas e agendamento do suporte. As bibliotecas de bioinformática que faziam parte do tempo de funcionação foram lançadas como Docker Containers, que pode encontrar na página [ProjectGlow Dockerhub][Dockerhub].

O tumor/gasoduto normal Azure Databricks é um gasoduto compatível com as melhores práticas do GATK para o alinhamento de leitura curta e variante somática chamando usando o chamador variante MuTect2.

Instruções

O gasoduto consiste nos seguintes passos:

  1. Alinhamento normal da amostra utilizando o BWA-MEM.
  2. Alinhamento da amostra do tumor usando BWA-MEM.
  3. Variante chamando com MuTect2.

Configuração

O oleoduto é executado como um trabalho da Azure Databricks. Pode configurar uma política de cluster para salvar a configuração:

{
  "num_workers": {
    "type": "unlimited",
    "defaultValue": 13
  },
  "node_type_id": {
    "type": "unlimited",
    "defaultValue": "Standard_F32s_v2"
  },
  "spark_env_vars.refGenomeId": {
    "type": "unlimited",
    "defaultValue": "grch38"
  },
  "spark_version": {
    "type": "regex",
    "pattern": ".*-hls.*",
    "defaultValue": "7.4.x-hls-scala2.12"
  }
}
  • A configuração do cluster deve utilizar databricks Runtime para Genómica.
  • A tarefa deve ser o tumor/caderno normal encontrado na parte inferior desta página.
  • Para um melhor desempenho, utilize os VMs otimizados compute compute com pelo menos 60GB de memória. Nós recomendar Standard_F32s_v2 VMs.
  • Se estiver a executar uma recalibração de pontuação de qualidade de base, use o propósito geral(Standard_D32s_v3) casos em vez disso, uma vez que esta operação requer mais memória.

Genomas de referência

Deve configurar o genoma de referência utilizando uma variável ambiental. Para utilizar o GRCh37, desaprote a variável ambiental:

refGenomeId=grch37

Para utilizar GRCh38, mude grch37 para grch38 .

Para utilizar um genoma de referência personalizado, consulte instruções em genomas de referência personalizados.

Parâmetros

O oleoduto aceita parâmetros que controlam o seu comportamento. O mais importante e os parâmetros geralmente alterados são documentados aqui. Para ver todos os parâmetros disponíveis e a sua utilização informação, executar a primeira célula do caderno de gasodutos. Novos parâmetros são adicionados regularmente. Depois de importar o caderno e defini-lo como uma tarefa de trabalho, você pode definir estes parâmetros para todas as corridas ou por corrida.

Parâmetro Predefinição Description
manifest n/a O manifesto que descreve a entrada.
saída n/a O caminho onde deve ser escrita a saída do gasoduto.
replayMode saltar * skip Se, as etapas forem ignoradas se a saída já existir.
* Se overwrite a saída existente for eliminada.
exportaçãoVCF false Se for verdade, o pipeline escreve resultados para um ficheiro VCF, bem como para a Delta.
perSampleTimeout 12h Um intervalo aplicado por amostra. Depois de alcançar este intervalo, o gasoduto continua para a próxima amostra. O valor deste parâmetro deve incluir uma unidade de intervalo: 's' por segundos, 'm' durante minutos, ou 'h' durante horas. Por exemplo, '60m' resulta num intervalo de tempo de 60 minutos.

Dica

Para otimizar o tempo de execução, desaperte a spark.sql.shuffle.partitionsspark.sql.shuffle.partitions para três vezes o número de núcleos do cluster.

Formato do manifesto

Nota

As bolhas manifestas são suportadas em Databricks Runtime 6.6 para Genómica e acima.

O manifesto é um ficheiro CSV ou blob que descreve onde encontrar os ficheiros FASTQ ou BAM de entrada. Por exemplo:

pair_id,file_path,sample_id,label,paired_end,read_group_id
HG001,*_R1_*.normal.fastq.bgz,HG001_normal,normal,1,read_group_normal
HG001,*_R2_*.normal.fastq.bgz,HG001_normal,normal,2,read_group_normal
HG001,*_R1_*.tumor.fastq.bgz,HG001_tumor,1,tumor,read_group_tumor
HG001,*_R2_*.tumor.fastq.bgz,HG001_tumor,2,tumor,read_group_tumor

Se a sua entrada consistir em ficheiros BAM não alinhados, deverá omitir o paired_end campo:

pair_id,file_path,sample_id,label,paired_end,read_group_id
HG001,*.normal.bam,HG001_normal,normal,,read_group_tumor
HG001,*.tumor.bam,HG001_tumor,tumor,,read_group_normal

O tumor e as amostras normais para um dado indivíduo são agrupadas pelo pair_id campo. O tumor e os nomes normais da amostra lêem nomes de grupo devem ser diferentes dentro de um par.

Dica

Se o manifesto fornecido é um arquivo, o file_path campo em cada linha pode ser um caminho absoluto ou um caminho relativo a o arquivo manifesto. Se o manifesto fornecido é uma bolha, o file_path campo deve ser um caminho absoluto. É possível incluem globs (*) para combinar muitos ficheiros.

Informações de utilização adicionais e resolução de problemas

O tumor/gasoduto normal partilha muitos detalhes operacionais com os outros oleodutos Azure Databricks. Para informações de utilização mais detalhadas, tais como estrutura de formato de saída, dicas para correr programáticamente, passos para a configuração de genomas de referência personalizados e questões comuns, consulte o gasoduto DNASeq.

Nota

O gasoduto foi renomeado de TNSeq para MutSeq em Databricks Runtime 7.3 LTS para Genómica e acima.

Caderno de gasoduto MutSeq

Obter o bloco de notas

Caderno de gasoduto TNSeq (Legado)

Obter o bloco de notas