Share via


Illumina Platinum Genomes

Sekvensering av hela genom ger forskare världen över möjligheten att mer fullständigt och noggrant beskriva det mänskliga genomet. Detta kräver en omfattande, genomomfattande katalog med högkonfidensvarianter som kallas i en uppsättning genom som ett riktmärke. Illumina har genererat djupa, hela genomsekvensdata från 17 individer i en tregenerations stamtavla. Illumina har anropat varianter i varje genom med hjälp av en rad tillgängliga algoritmer.

Mer information om data finns på den officiella Illumina-webbplatsen.

Kommentar

Microsoft tillhandahåller Azure Open Datasets i befintligt fall. Microsoft ger inga garantier, uttryckliga eller underförstådda garantier eller villkor för din användning av datauppsättningarna. I den utsträckning som tillåts enligt din lokala lag frånsäger sig Microsoft allt ansvar för eventuella skador eller förluster, inklusive direkt, följdriktig, särskild, indirekt, tillfällig eller straffbar, till följd av din användning av datauppsättningarna.

Datamängden tillhandahålls enligt de ursprungliga villkor som gällde när Microsoft tog emot källdatan. Datamängden kan innehålla data från Microsoft.

Data source

Den här datauppsättningen är en spegling av ftp://ussd-ftp.illumina.com/

Datavolymer och uppdateringsfrekvens

Den här datamängden innehåller cirka 2 GB data och uppdateras dagligen.

Lagringsplats

Den här datamängden lagras i Azure-regionerna USA, västra 2 och USA, västra centrala. Vi rekommenderar att du letar upp beräkningsresurser i USA, västra 2 eller USA, västra centrala för tillhörighet.

Dataåtkomst

USA, västra 2: 'https://datasetplatinumgenomes.blob.core.windows.net/dataset'

USA, västra centrala: "https://datasetplatinumgenomes-secondary.blob.core.windows.net/dataset"

SAS-token: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=FFfZ0QaDcnEPQmWsshtpoYOjbzd4jtwIWeK%2Fc4i9MqM%3D

Användningsvillkor

Data är tillgängliga utan begränsningar. Mer information och källhänvisning finns på den officiella Illumina-webbplatsen.

Kontaktperson

Om du vill ha frågor eller feedback om datauppsättningen kontaktar du platinumgenomes@illumina.com.

Dataåtkomst

Azure Notebooks

Hämta Illumina Platinum Genomes från Azure Open Datasets och göra inledande analys

Använd Jupyter Notebooks, GATK och Picard för att göra följande:

  1. Kommentera genotyper med hjälp av VariantFiltration
  2. Välj specifika varianter
  3. Filtrera relevanta varianter – inga anrop ELLER specifika regioner
  4. Utföra överensstämmelseanalys
  5. Konvertera de sista VCF-filerna till en tabell

Beroenden:

Den här notebook-filen kräver följande bibliotek:

  • Azure Storage pip install azure-storage-blob

  • Numpy pip install numpy

  • Genome Analysis Toolkit (GATK) (Användare måste ladda ned GATK från Broad Institutes webbsida till samma beräkningsmiljö med den här notebook-filen: https://github.com/broadinstitute/gatk/releases)

Viktig information: Den här notebook-filen använder Python 3.6-kernel

Hämta Genomics-data från Azure Open Datasets

Flera offentliga genomikdata har laddats upp som en Azure Open Dataset här. Vi skapar en blobtjänst som är länkad till den här öppna datamängden. Du hittar exempel på dataanropsprocedurer från Azure Open Dataset för Illumina Platinum Genomes datauppsättningar nedan:

Ladda ned det specifika "Illumina Platinum Genomes"

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetplatinumgenomes', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=FFfZ0QaDcnEPQmWsshtpoYOjbzd4jtwIWeK%2Fc4i9MqM%3D')     
blob_service_client.get_blob_to_path('dataset/2017-1.0/hg38/small_variants/NA12877', 'NA12877.vcf.gz', './NA12877.vcf.gz')

1. Kommentera genotyper med hjälp av VariantFiltration

Viktigt: Kontrollera att din GATK körs i systemet.

Om vi vill filtrera heterozygous genotypes använder vi alternativet VariantFiltration --genotype-filter-expression isHet == 1 . Vi kan ange anteckningsvärdet för verktyget för att märka heterozygous genotypes med alternativet --genotype-filter-name . Här är parameterns värde inställt på isHetFilter. I vårt första exempel använde NA12877.vcf.gz vi från Illimina Platinum Genomes, men användarna kan använda alla vcf-filer från andra datauppsättningar:Platinum Genomes

run gatk VariantFiltration -V NA12877.vcf.gz -O outputannot.vcf --genotype-filter-expression "isHet == 1" --genotype-filter-name "isHetFilter"

2. Välj specifika varianter

Välj en delmängd av varianter från en VCF-fil. Det här verktyget gör det möjligt att välja en delmängd av varianter baserat på olika kriterier för att underlätta vissa analyser. Exempel på sådana analyser är att jämföra och kontrastera fall jämfört med kontroller, extrahera variant eller icke-variantloci som uppfyller vissa krav eller felsöka några oväntade resultat för att nämna några.

Det finns många olika alternativ för att välja delmängder av varianter från en större anropsuppsättning:

Extrahera ett eller flera exempel från en anropsuppsättning baserat på antingen ett fullständigt exempelnamn eller en mönstermatchning. Ange kriterier för inkludering som placerar tröskelvärden på anteckningsvärden, till exempel "DP > 1000" (täckningsdjup större än 1 000x), "AF < 0,25" (platser med allelfrekvens mindre än 0,25). Dessa villkor skrivs som "JEXL-uttryck", som beskrivs i artikeln om hur du använder JEXL-uttryck. Ange överensstämmelse- eller disordansspår för att inkludera eller exkludera varianter som också finns i andra anropsuppsättningar. Välj varianter baserat på kriterier som deras typ (till exempel endast INDELs), bevis på mendeliansk överträdelse, filtreringsstatus, allelicity osv. Det finns också flera alternativ för att registrera de ursprungliga värdena för vissa anteckningar, som beräknas om när en delmängder av den nya anropsuppsättningen, trimmar alleler osv.

Indata: En variantanropsuppsättning i VCF-format som en delmängd kan väljas från.

Utdata: En ny VCF-fil som innehåller den valda delmängden av varianter.

run gatk SelectVariants -R Homo_sapiens_assembly38.fasta -V outputannot.vcf --select-type-to-include SNP --select-type-to-include INDEL -O selective.vcf

3. Omvandla filtrerade genotyper till inget anrop

Om du kör SelectVariants med --set-filtered-gt-to-nocall transformeras de flaggade genotyperna ytterligare med ett null-genotypanrop.

Den här konverteringen är nödvändig eftersom underordnade verktyg inte parsar filterfältet på FORMAT-nivå.

Hur kan vi filtrera varianterna med "Inget anrop"

run gatk SelectVariants -V outputannot.vcf --set-filtered-gt-to-nocall -O outputnocall.vcf

4. Kontrollera Concordance av VCF-filen med Ground Truth

Utvärdera överensstämmelse på platsnivå för en indata-VCF mot en sannings-VCF. Det här verktyget utvärderar två variantanropsuppsättningar mot varandra och skapar en sammanfattningsstatistiktabell med sex kolumner.

Den här funktionen kommer att:

  1. Stratifierar SNP- och INDEL-anrop
  2. Rapportera true-positive, False-positive och false-negative calls
  3. Beräknar känslighet och precision

Verktyget förutsätter att alla poster i --truth VCF skickar sanningsvarianter. För -eval VCF använder verktyget endast ofiltrerade anrop.

Alternativt kan verktyget ställas in för att skapa VCF:er för följande variantposter, kommenterat med varje variants överensstämmelsestatus:

Sanna positiva och falska negativa värden (det vill säga alla varianter i sannings-VCF): användbart för att beräkna känslighet

Sanna positiva identifieringar och falska positiva identifieringar (d.v.s. alla varianter i den virtuella eval-databasen): användbart för att hämta en träningsdatauppsättning för maskininlärningsklassificerare av artefakter

Dessa utdata-VCFs kan skickas till VariantsToTable för att skapa en TSV-fil för statistisk analys i R eller Python.

 run gatk Concordance -R Homo_sapiens_assembly38.fasta -eval outputannot.vcf --truth outputnocall.vcf  --summary summary.tsv 

5. VariantsToTable

Extrahera fält från en VCF-fil till en tab-avgränsad tabell. Det här verktyget extraherar angivna fält för varje variant i en VCF-fil till en flikavgränsad tabell, vilket kan vara enklare att arbeta med än en VCF. Som standard extraherar verktyget endast PASS- eller (ofiltrerade) varianter i VCF-filen. Filtrerade varianter kan inkluderas i utdata genom att lägga till flaggan --show-filtered. Verktyget kan extrahera både INFO-fält (dvs. platsnivå) och FORMAT-fält (dvs. exempelnivå).

INFO/fält på platsnivå:

-F Använd argumentet för att extrahera INFO-fält. Varje fält upptar en enda kolumn i utdatafilen. Fältet kan vara valfri VCF-standardkolumn (till exempel CHROM, ID, QUAL) eller valfritt anteckningsnamn i INFO-fältet (till exempel AC, AF). Verktyget stöder även följande fält:

EVENTLENGTH (händelsens längd) ÖVERGÅNG (1 för en bi-allelic övergång (SNP), 0 för bi-allelic transversion (SNP), -1 för INDELs och multi-allelics) HET (antal het genotyper) HOM-REF (antal homozygous referensgenotyper) HOM-VAR (antal homozygous variant genotypes) NO-CALL (antal no-call genotypes) TYP (typ av variant, möjliga värden är NO_VARIATION, SNP, MNP, INDEL, SYMBOLISK OCH BLANDAD VAR (antal icke-referensgenotyper) NSAMPLES (antal prover) NCALLED (antal kallade exempel) MULTI-ALLELIC (är den här varianten multi-allelic? true/false)

FORMAT-/exempelnivåfält:

-GF Använd argumentet för att extrahera format-/exempelnivåfält. Verktyget skapar en ny kolumn per exempel med namnet "SAMPLE_NAME. FORMAT_FIELD_NAME" till exempel NA12877.GQ NA12878. GQ.

Indata:

En VCF-fil som ska konverteras till en tabell

Utdata:

En flikavgränsad fil som innehåller värdena för de begärda fälten i VCF-filen.

run gatk VariantsToTable -V NA12877.vcf.gz -F CHROM -F POS -F TYPE -F AC -F AD -F AF -GF DP -GF AD -O outputtable.table

Referenser

  1. VariantFiltration: https://gatk.broadinstitute.org/hc/en-us/articles/360036827111-VariantFiltration
  2. Välj Varianter:https://gatk.broadinstitute.org/hc/en-us/articles/360037052272-SelectVariants
  3. Concordance: https://gatk.broadinstitute.org/hc/en-us/articles/360041851651-Concordance
  4. Varianter till tabell: https://gatk.broadinstitute.org/hc/en-us/articles/360036882811-VariantsToTable
  5. Illumina Platinum Genomes:https://www.illumina.com/platinumgenomes.html

Nästa steg

Visa resten av datauppsättningarna i katalogen Öppna datamängder.