Illumina Platinum Genomes

Sekvenování celého genomu umožňuje výzkumníkům po celém světě kompletněji a přesněji charakterizovat lidský genom. To vyžaduje komplexní katalog variant s vysokou spolehlivostí, který se označuje jako srovnávací test v sadě genomů. Illumina vygenerovala hloubková data sekvence celého genomu 17 jednotlivců ve třígeneračním rodokmenu. Illumina volala varianty v jednotlivých genomech pomocí řady aktuálně dostupných algoritmů.

Další informace o datech najdete na oficiálním webu Illumina.

Poznámka:

Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Zdroj dat

Tato datová sada je zrcadlem ftp://ussd-ftp.illumina.com/

Objemy dat a frekvence aktualizací

Tato datová sada obsahuje přibližně 2 GB a aktualizuje se každý den.

Umístění úložiště

Tato datová sada se uchovává v těchto oblastech Azure: USA – středozápad a USA – západ 2. Pro spřažení doporučujeme umístit výpočetní prostředky do oblasti USA – západ 2 nebo USA – středozápad.

Přístup k datům

USA – západ 2: 'https://datasetplatinumgenomes.blob.core.windows.net/dataset'

USA – středozápad: 'https://datasetplatinumgenomes-secondary.blob.core.windows.net/dataset'

Token SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=FFfZ0QaDcnEPQmWsshtpoYOjbzd4jtwIWeK%2Fc4i9MqM%3D

Podmínky použití

Data jsou k dispozici bez omezení. Další informace a podrobnosti citace naleznete na oficiálním webu Illumina.

Kontakt

V případě jakýchkoli dotazů nebo zpětné vazby k datové sadě kontaktujte platinumgenomes@illumina.com.

Přístup k datům

Azure Notebooks

Získání illumina Platinum Genomes z otevřených datových sad Azure a provádění počáteční analýzy

K provedení následujících kroků použijte poznámkové bloky Jupyter, GATK a Picard:

  1. Přidávání poznámek pomocí VariantFiltration
  2. Vybrat konkrétní varianty
  3. Filtrování relevantních variant – žádná volání NEBO konkrétní oblasti
  4. Provedení analýzy konkorance
  5. Převod konečných souborů VCF na tabulku

Závislosti:

Tento poznámkový blok vyžaduje následující knihovny:

  • Azure Storage pip install azure-storage-blob

  • numpy pip install numpy

  • Genome Analysis Toolkit (GATK) (Uživatelé si musí stáhnout GATK z webové stránky Broad Institute do stejného výpočetního prostředí s tímto poznámkovým blokem: https://github.com/broadinstitute/gatk/releases)

Důležité informace: Tento poznámkový blok používá jádro Pythonu 3.6

Získání dat Genomics z Azure Open Datasets

Několik veřejných dat genomiky se tady nahrálo jako datová sada Azure Open Dataset. Vytvoříme službu blob propojenou s touto otevřenou datovou sadou. Příklady volání dat z Azure Open Dataset pro Illumina Platinum Genomes datové sady najdete níže:

Stažení konkrétního "Illumina Platinum Genomes"

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetplatinumgenomes', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=FFfZ0QaDcnEPQmWsshtpoYOjbzd4jtwIWeK%2Fc4i9MqM%3D')     
blob_service_client.get_blob_to_path('dataset/2017-1.0/hg38/small_variants/NA12877', 'NA12877.vcf.gz', './NA12877.vcf.gz')

1. Přidávání poznámek k genomům pomocí VariantFiltration

Důležitá poznámka: Zkontrolujte, jestli ve vašem systému běží sada GATK.

Pokud chceme filtrovat heterozygózní genomy, použijeme možnost VariantFiltration --genotype-filter-expression isHet == 1 . Můžeme určit hodnotu anotace, kterou nástroj označí heterozygózními genomy pomocí --genotype-filter-name možnosti. Zde je hodnota tohoto parametru nastavena na isHetFilter. V našem prvním příkladu jsme použili NA12877.vcf.gz z Illimina Platinum Genomes, ale uživatelé můžou používat jakékoli soubory vcf z jiných datových sad:Platinum Genomes

run gatk VariantFiltration -V NA12877.vcf.gz -O outputannot.vcf --genotype-filter-expression "isHet == 1" --genotype-filter-name "isHetFilter"

2. Vyberte konkrétní varianty.

Vyberte podmnožinu variant ze souboru VCF. Tento nástroj umožňuje vybrat podmnožinu variant založených na různých kritériích, aby bylo možné usnadnit určité analýzy. Mezi příklady takových analýz patří porovnání a kontrastní případy oproti kontrolním mechanismům, extrakci varianty nebo ne variantního umístění, které splňují určité požadavky, nebo řešení potíží s neočekávanými výsledky, aby bylo možné několik pojmenovat.

Existuje mnoho různých možností pro výběr podmnožiny variant z větší sady volání:

Extrahujte jeden nebo více ukázek ze sady volání na základě kompletního názvu ukázky nebo shody vzoru. Zadejte kritéria pro zahrnutí, která umisťují prahové hodnoty na hodnoty poznámek, například DP > 1000 (hloubka pokrytí větší než 1000x), AF < 0,25 (lokality s frekvencí aele menší než 0,25). Tato kritéria jsou napsána jako výrazy JEXL, které jsou popsané v článku o použití výrazů JEXL. Poskytněte stopy shody nebo diskordance, aby bylo možné zahrnout nebo vyloučit varianty, které jsou přítomné také v jiných sadách volání. Vyberte varianty založené na kritériích, jako je jejich typ (například pouze inDELs), důkaz o mendelovském porušení, stav filtrování, alicity atd. Existuje také několik možností pro záznam původních hodnot určitých poznámek, které se přepočítávají, když jedna podmnožina nové sady volání, oříznou aele atd.

Vstup: Variantní sada volání ve formátu VCF, ze které lze vybrat podmnožinu.

Výstup: Nový soubor VCF obsahující vybranou podmnožinu variant.

run gatk SelectVariants -R Homo_sapiens_assembly38.fasta -V outputannot.vcf --select-type-to-include SNP --select-type-to-include INDEL -O selective.vcf

3. Transformace filtrovaných genomů na žádné volání

Spuštění selectVariants s parametrem --set-filtered-gt-to-nocall dále transformuje označené aliasy s voláním null null.

Tento převod je nutný, protože podřízené nástroje neanalyšují pole filtru na úrovni FORMAT.

Jak můžeme filtrovat varianty bez volání

run gatk SelectVariants -V outputannot.vcf --set-filtered-gt-to-nocall -O outputnocall.vcf

4. Zkontrolujte concordance souboru VCF se základní pravdou.

Vyhodnoťte shodu vstupního virtuálního počítače na úrovni lokality s pravdivou hodnotou VCF. Tento nástroj vyhodnotí dvě variantní sady volání proti sobě a vytvoří tabulku souhrnných metrik se šesti sloupci.

Tato funkce:

  1. Stratifies SNP a INDEL volání
  2. Hlášení pravdivě pozitivních, falešně pozitivních a falešně negativních volání
  3. Vypočítá citlivost a přesnost.

Nástroj předpokládá, že všechny záznamy v souboru --truth VCF předávají varianty pravdy. Pro protokol -eval VCF nástroj používá pouze nefiltrované předávací volání.

Volitelně lze nástroj nastavit tak, aby vytvořil VCFs následujících záznamů variant a anotoval se stavem concordance každé varianty:

Pravdivě pozitivní a falešně negativní (to znamená všechny varianty ve skutečnosti VCF): užitečné pro výpočet citlivosti

Pravdivě pozitivní a falešně pozitivní (tj. všechny varianty v hodnotě VCF): užitečné pro získání trénovací sady dat pro klasifikátory strojového učení artefaktů.

Tyto výstupní VCFs je možné předat VariantsToTable a vytvořit soubor TSV pro statistickou analýzu v R nebo Pythonu.

 run gatk Concordance -R Homo_sapiens_assembly38.fasta -eval outputannot.vcf --truth outputnocall.vcf  --summary summary.tsv 

5. VariantsToTable

Extrahujte pole ze souboru VCF do tabulky s oddělovači tabulátoru. Tento nástroj extrahuje zadaná pole pro každou variantu v souboru VCF do tabulky s oddělovači tabulátoru, což může být snazší pracovat s než VCF. Ve výchozím nastavení nástroj extrahuje pouze varianty PASS nebo (nefiltrované) v souboru VCF. Filtrované varianty mohou být ve výstupu zahrnuty přidáním příznaku --show-filtered. Nástroj může extrahovat pole INFO (tj. pole na úrovni webu) i pole FORMAT (tj. ukázková úroveň).

INFO/pole na úrovni webu:

Pomocí argumentu -F extrahujte pole INFO. Každé pole bude zabírat jeden sloupec ve výstupním souboru. Pole může být libovolný standardní sloupec VCF (například CHROM, ID, QUAL) nebo jakýkoli název poznámky v poli INFO (například AC, AF). Nástroj také podporuje následující pole:

EVENTLENGTH (délka události) TRANSITION (1 pro přechod bi-allelic (SNP), 0 pro bi-allelic transversion (SNP), -1 pro INDELs a multi-allelics) HET (počet het diagramů) HOM-REF (count of homozygous reference genomes) HOM-VAR (count of homozygous variant genomes) NO-CALL (count of no-call genomes) TYPE (typ varianty, možné hodnoty jsou NO_VARIATION, SNP, MNP, INDEL, SYMBOLICKÉ a SMÍŠENÉ VAR (počet nenápočtových genomů) NSAMPLES (počet vzorků) NCALLED (počet zvaných vzorků) MULTI-ALLELIC (je tato varianta multi-allelic? true/false)

Pole FORMAT/sample-level:

Pomocí argumentu -GF extrahujte pole FORMAT/sample-level. Nástroj pro každou ukázku vytvoří nový sloupec s názvem "SAMPLE_NAME". FORMAT_FIELD_NAME" například NA12877.GQ, NA12878. GQ.

Vstup:

Soubor VCF pro převod na tabulku

Výstup:

Soubor oddělený tabulátorem obsahující hodnoty požadovaných polí v souboru VCF.

run gatk VariantsToTable -V NA12877.vcf.gz -F CHROM -F POS -F TYPE -F AC -F AD -F AF -GF DP -GF AD -O outputtable.table

Odkazy

  1. VariantFiltration: https://gatk.broadinstitute.org/hc/en-us/articles/360036827111-VariantFiltration
  2. Vybrat varianty:https://gatk.broadinstitute.org/hc/en-us/articles/360037052272-SelectVariants
  3. Shoda: https://gatk.broadinstitute.org/hc/en-us/articles/360041851651-Concordance
  4. Varianty tabulky: https://gatk.broadinstitute.org/hc/en-us/articles/360036882811-VariantsToTable
  5. Illumina Platinum Genomes:https://www.illumina.com/platinumgenomes.html

Další kroky

Prohlédněte si zbývající datové sady v katalogu Open Datasets.