Databáze agregace genomu (gnomAD)

Genome Aggregation Database (gnomAD) je zdroj vyvinutý mezinárodní koalicí výzkumníků, s cílem agregace a harmonizace exome a genomu sekvencování dat z široké škály rozsáhlých sekvencování projektů a zpřístupnění souhrnných dat širší vědecké komunitě.

Poznámka

Microsoft poskytuje datové sady Azure Open Datasets podle toho, jak je. Společnost Microsoft neposkytuje žádné záruky, výslovné nebo implicitní záruky nebo podmínky týkající se vašeho používání datových sad. V rozsahu povoleném podle vašeho místního práva Microsoft zřeknou veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, speciálních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Zdroj dat

Tato datová sada je hostovaná ve spolupráci s Broad Institute a úplný kompletní katalog dat gnomAD najdete na adrese https://gnomad.broadinstitute.org/downloads

Objemy dat a frekvence aktualizací

Tato datová sada obsahuje přibližně 30 TB dat a aktualizuje se při každém vydání gnomAD.

Umístění úložiště

Účet úložiště hostující tuto datovou sadu je v oblasti Azure USA – východ. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti Východní USA.

Přístup k datům

účet Storage: 'https://datasetgnomad.blob.core.windows.net/dataset/'

Data jsou veřejně dostupná bez omezení a nástroj AzCopy se doporučuje pro hromadné operace. Pokud si například chcete zobrazit VCF ve verzi gnomAD 3.0:

$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes

Pokud chcete stáhnout všechny VCF rekurzivně:

$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .

NOVINKA: Formát Parquet souborů gnomAD v2.1.1 VCF (exomes a genomy)

Zobrazení souborů parquet:

$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset

Chcete-li stáhnout všechny soubory parquet rekurzivně:

$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset

Pro procházení seznamu souborů ve vydané verzi gnomAD je také užitečný nástroj Průzkumník služby Azure Storage.

Podmínky použití

Data jsou k dispozici bez omezení. Další informace a podrobnosti citace najdete na stránce gnomAD.

Kontakt

Pokud máte jakékoli dotazy nebo zpětnou vazbu k této datové sadě, obraťte se na tým gnomAD.

Další kroky

Zobrazte zbytek datových sad v katalogu Open Datasets.