1000 Genomes

Projekt 1000 Genomes běžel v letech 2008 až 2015 a vytvořil největší veřejný katalog lidských variací a dat genomu. Finální datová sada obsahuje údaje o 2 504 jednotlivcích z 26 populací a 84 milionů identifikovaných variant. Další informace najdete na webu 1000 Genome Project a v následujících publikacích:

Pilotní analýza: Mapa variace lidského genomu od sekvencování přírody 467, 1061–1073 (28. října 2010)

Analýza fáze 1: Integrovaná mapa genetické variace z 1 092 lidských genomů Nature 491, 56–65 (01. listopadu 2012)

Analýza fáze 3: Globální odkaz na lidskou genetickou variaci Nature 526, 68-74 (01. října 2015) a integrovanou mapu strukturální variace v 2 504 lidských genomech Nature 526, 75-81 (01. října 2015)

Podrobnosti o datových formátech najdete na webu http://www.internationalgenome.org/formats.

[NOVÝ] datová sada je k dispozici také ve formátu parquet.

Poznámka:

Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Zdroj dat

Tato datová sada je zrcadlem ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

Objemy dat a frekvence aktualizací

Tato datová sada obsahuje přibližně 815 TB dat a aktualizuje se každý den.

Umístění úložiště

Tato datová sada se uchovává v těchto oblastech Azure: USA – středozápad a USA – západ 2. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti USA – středozápad nebo USA – západ 2.

Přístup k datům

USA – západ 2: 'https://dataset1000genomes.blob.core.windows.net/dataset'

USA – středozápad: 'https://dataset1000genomes-secondary.blob.core.windows.net/dataset'

Token SAS: sv=2019-10-10&si=prod&sr=c&sig=9nzcxaQn0NprMPlSh4RhFQHcXedLQIcFgbERiooHEqM%3D

Přístup k datům: Kurátorovaná datová sada 1000 genomů ve formátu parquet

USA – východ: https://curated1000genomes.blob.core.windows.net/dataset

Token SAS: sv=2018-03-28&si=prod&sr=c&sig=BgIomQanB355O4FhxqBL9xUgKzwpcVlRZdBewO5%2FM4E%3D

Podmínky použití

Po dokončení publikací jsou data z projektu 1000 Genomes Project veřejně dostupná bez toho, aby je někdo mohl používat podle podmínek poskytovaných zdrojem datové sady (http://www.internationalgenome.org/data). Použití těchto dat by se mělo citovat v souladu s informacemi uvedenými v nejčastějších dotazech k projektu 1000 Genome Project.

Kontakt

https://www.internationalgenome.org/contact

Další kroky

Prohlédněte si zbývající datové sady v katalogu Open Datasets.