Databáze agregace genomu (gnomAD)
Genome Aggregation Database (gnomAD) je zdroj vyvinutý mezinárodní koalicí výzkumníků, s cílem agregace a harmonizace exome a genomu sekvencování dat z široké škály rozsáhlých sekvencování projektů a zpřístupnění souhrnných dat širší vědecké komunitě.
Poznámka
Microsoft poskytuje datové sady Azure Open Datasets podle toho, jak je. Společnost Microsoft neposkytuje žádné záruky, výslovné nebo implicitní záruky nebo podmínky týkající se vašeho používání datových sad. V rozsahu povoleném podle vašeho místního práva Microsoft zřeknou veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, speciálních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.
Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.
Zdroj dat
Tato datová sada je hostovaná ve spolupráci s Broad Institute a úplný kompletní katalog dat gnomAD najdete na adrese https://gnomad.broadinstitute.org/downloads
Objemy dat a frekvence aktualizací
Tato datová sada obsahuje přibližně 30 TB dat a aktualizuje se při každém vydání gnomAD.
Umístění úložiště
Účet úložiště hostující tuto datovou sadu je v oblasti Azure USA – východ. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti Východní USA.
Přístup k datům
účet Storage: 'https://datasetgnomad.blob.core.windows.net/dataset/'
Data jsou veřejně dostupná bez omezení a nástroj AzCopy se doporučuje pro hromadné operace. Pokud si například chcete zobrazit VCF ve verzi gnomAD 3.0:
$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes
Pokud chcete stáhnout všechny VCF rekurzivně:
$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .
NOVINKA: Formát Parquet souborů gnomAD v2.1.1 VCF (exomes a genomy)
Zobrazení souborů parquet:
$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset
Chcete-li stáhnout všechny soubory parquet rekurzivně:
$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset
Pro procházení seznamu souborů ve vydané verzi gnomAD je také užitečný nástroj Průzkumník služby Azure Storage.
Podmínky použití
Data jsou k dispozici bez omezení. Další informace a podrobnosti citace najdete na stránce gnomAD.
Kontakt
Pokud máte jakékoli dotazy nebo zpětnou vazbu k této datové sadě, obraťte se na tým gnomAD.
Další kroky
Zobrazte zbytek datových sad v katalogu Open Datasets.