1000 ゲノム

1000 Genomes Project は 2008 年から 2015 年にかけて実施され、ヒトの多様性と遺伝子型データの最大の公開カタログが作成されました。 最終的なデータ セットには、26 の母集団からの 2,504 人のデータと、特定された 8,400 万の変異が含まれています。 詳細については、1000 Genomes Project の Web サイトと以下の出版物をご覧ください。

パイロット分析: 母集団スケール シーケンシングからのヒトの遺伝的変異マップ Nature 467, 1061-1073 (2010 年 10 月 28 日)

フェーズ 1 の分析: 1,092 のヒト ゲノムからの遺伝的変異の統合マップ Nature 491, 56-65 (2012 年 11 月 01 日)

フェーズ 3 の分析: ヒトの遺伝的変異のグローバル リファレンス Nature 526, 68-74 (2015 年 10 月 01 日)、および 2,504 のヒト ゲノムにおける構造多型の統合マップ Nature 526, 75-81 (2015 年 10 月 01 日)

データ形式の詳細については、「 http://www.internationalgenome.org/formats 」をご覧ください

[NEW] データセットは Parquet 形式でも使用できます

注意

Microsoft は、Azure Open Datasets を "現状有姿" で提供します。 Microsoft は、データセットの使用に関して、明示または黙示を問わず、いかなる保証も行わないものとし、条件を定めることもありません。 現地の法律の下で認められている範囲内で、Microsoft は、データセットの使用に起因する、直接的、派生的、特別、間接的、偶発的、または懲罰的なものを含めたいかなる損害または損失に対しても一切の責任を負わないものとします。

このデータセットは、Microsoft がソース データを受け取った元の条件に基づいて提供されます。 データセットには、Microsoft が提供するデータが含まれている場合があります。

データ ソース

このデータセットは ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/ のミラーです

データ量と更新の頻度

このデータセットには、約 815 TB のデータが含まれており、毎日更新されます。

保存先

このデータセットは米国西部 2 および米国中西部 Azure リージョンに保存されています。 アフィニティのため、米国西部 2 または米国中西部にコンピューティング リソースを割り当てることをお勧めします。

データ アクセス

米国西部 2: 'https://dataset1000genomes.blob.core.windows.net/dataset '

米国中西部: 'https://dataset1000genomes-secondary.blob.core.windows.net/dataset '

SAS Token: sv=2019-10-10&si=prod&sr=c&sig=9nzcxaQn0NprMPlSh4RhFQHcXedLQIcFgbERiooHEqM%3D

データ アクセス: キュレーションされた 1000 ゲノム データセット (Parquet 形式)

米国東部: https://curated1000genomes.blob.core.windows.net/dataset

SAS トークン: sv=2018-03-28&si=prod&sr=c&sig=BgIomQanB355O4FhxqBL9xUgKzwpcVlRZdBewO5%2FM4E%3D

使用条件

最終的に出版された後、1000 Genomes Project のデータは、データセットの提供元が提供する条件の下で、誰もが制限なく利用できるようになりました (http://www.internationalgenome.org/data)。 データの使用については、1000 ゲノム プロジェクトの FAQ に掲載されている詳細を引用してください。

Contact

https://www.internationalgenome.org/contact

次の手順

Open Datasets カタログの残りのデータセットを表示します。