1000 ゲノム

[アーティクル]
06/15/2023

1000 Genomes Project は 2008 年から 2015 年にかけて実施され、ヒトの多様性と遺伝子型データの最大の公開カタログが作成されました。最終的なデータセットには、26 の母集団からの 2,504 人のデータと、特定された 8,400 万の変異が含まれています。詳細については、1000 Genomes Project の Web サイトと以下の出版物をご覧ください。

パイロット分析: 母集団スケールシーケンシングからのヒトの遺伝的変異マップ Nature 467, 1061-1073 (2010 年 10 月 28 日)

フェーズ 1 の分析: 1,092 のヒトゲノムからの遺伝的変異の統合マップ Nature 491, 56-65 (2012 年 11 月 01 日)

フェーズ 3 の分析: ヒトの遺伝的変異のグローバルリファレンス Nature 526, 68-74 (2015 年 10 月 01 日)、および 2,504 のヒトゲノムにおける構造多型の統合マップ Nature 526, 75-81 (2015 年 10 月 01 日)

データ形式の詳細については、「 http://www.internationalgenome.org/formats 」をご覧ください

[NEW] データセットは Parquet 形式でも使用できます

注意

Microsoft は、Azure Open Datasets を "現状有姿" で提供します。 Microsoft は、データセットの使用に関して、明示または黙示を問わず、いかなる保証も行わないものとし、条件を定めることもありません。現地の法律の下で認められている範囲内で、Microsoft は、データセットの使用に起因する、直接的、派生的、特別、間接的、偶発的、または懲罰的なものを含めたいかなる損害または損失に対しても一切の責任を負わないものとします。

このデータセットは、Microsoft がソースデータを受け取った元の条件に基づいて提供されます。データセットには、Microsoft が提供するデータが含まれている場合があります。

データソース

このデータセットは ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/ のミラーです

データ量と更新の頻度

このデータセットには、約 815 TB のデータが含まれており、毎日更新されます。

保存先

このデータセットは米国西部 2 および米国中西部 Azure リージョンに保存されています。アフィニティのため、米国西部 2 または米国中西部にコンピューティングリソースを割り当てることをお勧めします。

データアクセス

米国西部 2: 'https://dataset1000genomes.blob.core.windows.net/dataset '

米国中西部: 'https://dataset1000genomes-secondary.blob.core.windows.net/dataset '

SAS Token: sv=2019-10-10&si=prod&sr=c&sig=9nzcxaQn0NprMPlSh4RhFQHcXedLQIcFgbERiooHEqM%3D

データアクセス: キュレーションされた 1000 ゲノムデータセット (Parquet 形式)

米国東部: https://curated1000genomes.blob.core.windows.net/dataset

SAS トークン: sv=2018-03-28&si=prod&sr=c&sig=BgIomQanB355O4FhxqBL9xUgKzwpcVlRZdBewO5%2FM4E%3D

使用条件

最終的に出版された後、1000 Genomes Project のデータは、データセットの提供元が提供する条件の下で、誰もが制限なく利用できるようになりました (http://www.internationalgenome.org/data)。データの使用については、1000 ゲノムプロジェクトの FAQ に掲載されている詳細を引用してください。

Contact

https://www.internationalgenome.org/contact

次の手順

Open Datasets カタログの残りのデータセットを表示します。

1000 ゲノム

データ ソース