Gemensam genotyp-pipeline

Anteckning

Databricks Runtime för Genomics är inaktuell. Databricks bygger inte längre nya Databricks Runtime for Genomics-versioner och kommer att ta bort stödet för Databricks Runtime for Genomics den 24 september 2022 när Databricks Runtime for Genomics 7.3 LTS-stödet upphör. Då är Databricks Runtime för Genomics inte längre tillgängligt för val när du skapar ett kluster. Mer information om policyn och schemat för utfasningen av Databricks Runtime finns i Databricks Runtime-versioner som stöds och supportschema.

Den Azure Databricks gemensamma genotyp-pipelinen är en GATK-bästa praxis som uppfyller kraven för gemensam genotyping med hjälp av GenotypeGVCFs.

Genomgång

Pipelinen består vanligtvis av följande steg:

  1. Mata in varianter i Delta Lake.
  2. Gemensamt anropa kohort med GenotypeGVCFs.

Vid variantinmatning bearbetas gVCFs med ett exempel i batchar och raderna lagras i Delta Lake för att ge feltolerans, snabba frågor och inkrementell gemensam genotyping. I det gemensamma genotypningssteget matas gVCF-raderna in från Delta Lake, delas upp i lagerplatser och distribueras till partitioner. För varje variantplats identifieras relevanta gVCF-rader per exempel och används för regenotyping.

Installation

Pipelinen körs som ett Azure Databricks jobb. Förmodligen arbetar Azure Databricks en lösningsarkitekt med dig för att konfigurera det första jobbet. Nödvändig information är:

{
  "autoscale.min_workers": {
    "type": "unlimited",
    "defaultValue": 1
  },
  "autoscale.max_workers": {
    "type": "unlimited",
    "defaultValue": 25
  },
  "node_type_id": {
    "type": "unlimited",
    "defaultValue": "Standard_L32s_v2"
  },
  "spark_env_vars.refGenomeId": {
    "type": "unlimited",
    "defaultValue": "grch38"
  },
  "spark_version": {
    "type": "regex",
    "pattern": ".*-hls.*",
    "defaultValue": "7.4.x-hls-scala2.12"
  }
}
  • Klusterkonfigurationen bör använda Databricks Runtime för Genomics (inaktuell).
  • Uppgiften ska vara den gemensamma genotyping-pipeline-anteckningsboken som finns längst ned på den här sidan.
  • Använd de lagringsoptimerade virtuella datorerna för bästa prestanda. Vi rekommenderar att du Standard_L32s_v2.
  • Du kan minska kostnaderna genom att aktivera autoskalning med minst 1 arbetare och högst 10–50 beroende på svarstidskraven.

Referensgenom

Du måste konfigurera referensgenomet med hjälp av miljövariablerna. Om du vill använda GRCh37 anger du miljövariabeln:

refGenomeId=grch37

Om du vill använda GRCh38 ändrar du grch37 till grch38 .

Om du vill använda ett anpassat referensgenom kan du läsa anvisningarna i Anpassade referensgenom.

Parametrar

Pipelinen accepterar parametrar som styr dess beteende. De viktigaste och mest ändrade parametrarna dokumenteras här. Om du vill visa alla tillgängliga parametrar och deras användningsinformation kör du den första cellen i pipeline-anteckningsboken. Nya parametrar läggs till regelbundet. När du har importerat anteckningsboken och angett den som en jobbaktivitet kan du ange dessa parametrar för alla körningar eller per körning.

Parameter Standardvärde Beskrivning
manifest saknas Manifestet som beskriver indata.
utdata saknas Sökvägen där pipelineutdata skrivs.
replayMode hoppa över Något av följande:

* skip: faser hoppas över om utdata redan finns.
* overwrite: befintliga utdata tas bort.
exportVCF falskt Om sant skriver pipelinen resultat i VCF samt Delta Lake.
targetedRegions saknas Sökväg till filer som innehåller regioner som ska anropas. Om detta utelämnas anropar alla regioner.
gvcfDeltaOutput saknas Om det här anges matas gVCFs in i en Delta-tabell före genotypning. Du bör bara ange den här parametern om du förväntar dig att gemensamt anropa samma gVCFs många gånger.
performValidation falskt Om true , kontrollerar systemet att varje post innehåller nödvändig information för gemensam genotypning. I synnerhet kontrollerar den att rätt antal genotype-sannolikheter finns.
validationStringency Strikt Hantera felaktiga poster, både under inläsning och validering.

* STRICT: misslyckas jobbet
* LENIENT: logga en varning och ta bort posten
* SILENT: ta bort posten utan varning

Tips

Om du vill utföra gemensamt anrop från en befintlig Delta-tabell anger gvcfDeltaOutput du till tabellsökvägen replayMode och till skip . Du kan också ange , som ska användas för att definiera VCF-schemat och exemplen. Dessa kommer att manifest härledas från Delta-tabellen annars. Vi ignorerar targetedRegions parametrarna performValidation och i den här konfigurationen.

Utdata

De regenotypade varianterna skrivs alla ut till Delta-tabeller i den angivna utdatakatalogen. Dessutom visas de under utdatakatalogen om du har konfigurerat pipelinen för att exportera VCO:er.

output
|---genotypes
    |---Delta files
|---genotypes.vcf
    |---VCF files

Manifestformat

Anteckning

Manifestblobar stöds i Databricks Runtime 6.6 för Genomics och högre.

Manifestet är en fil eller blob som beskriver var du hittar indata med ett exempel på GVCF-filer, med varje filsökväg på en ny rad. Ett exempel:

HG00096.g.vcf.bgz
HG00097.g.vcf.bgz

Tips

Om det angivna manifestet är en fil kan varje rad vara en absolut sökväg eller en sökväg i förhållande till manifestfilen. Om det angivna manifestet är en blob måste radfältet vara en absolut sökväg. Du kan inkludera globs (*) för att matcha många filer.

Felsökning

Jobbet misslyckas med en ArrayIndexOutOfBoundsException

Det här felet indikerar vanligtvis att en indatapost har ett felaktigt antal genotype-sannolikheter. Försök att performValidation ange alternativet till och alternativet till eller true validationStringency LENIENT SILENT .

Ytterligare användningsinformation

Den gemensamma genotyp-pipelinen delar många driftsinformation med de andra Azure Databricks pipelines. Mer detaljerad användningsinformation, till exempel struktur för utdataformat, tips för att köra programmatiskt och steg för att konfigurera anpassade referensgenom finns i DNASeq-pipeline.

Gemensam genotyping-pipeline notebook

Hämta notebook-fil