你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

基因组聚合数据库 (gnomAD)

基因组聚合数据库 (gnomAD) 是一种由国际研究人员联盟开发的资源,其目标是聚合和协调来自各种大型测序项目的外显子组和基因组测序数据,并为更广泛的科学社区提供汇总数据。

注意

Microsoft 按“原样”提供 Azure 开放数据集。 Microsoft 对数据集的使用不提供任何担保(明示或暗示)、保证或条件。 在当地法律允许的范围内,Microsoft 对使用数据集而导致的任何损害或损失不承担任何责任,包括直接、必然、特殊、间接、偶发或惩罚性损害或损失。

此数据集是根据 Microsoft 接收源数据的原始条款提供的。 数据集可能包含来自 Microsoft 的数据。

数据源

此数据集是与布罗德研究所合作托管的,完整的 gnomAD 数据目录可在 https://gnomad.broadinstitute.org/downloads 上查看

数据量和更新频率

此数据集大约包含 30 TB 的数据,且随着每个 gnomAD 版本而更新。

存储位置

托管此数据集的存储帐户位于美国东部 Azure 区域。 建议将计算资源分配到美国东部地区,以实现相关性。

数据访问

存储帐户: https://datasetgnomad.blob.core.windows.net/dataset/

这些数据是公开提供的,没有任何限制,建议使用 AzCopy 工具进行批量操作。 例如,查看 gnomAD 3.0 版中的 VCF:

$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes

以递归方式下载所有 VCF:

$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .

新:gnomAD v2.1.1 VCF 文件的 Parquet 格式(外显子组和基因组)

查看 parquet 文件:

$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset

以递归方式下载所有 parquet 文件:

$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset

Azure 存储资源管理器也是一个浏览 gnomAD 版本中的文件列表的有用工具。

使用条款

可随意使用该数据。 有关详细信息和引文细节,请参阅 gnomAD 的“关于”页

联系人

有关此数据集的任何问题或反馈,请联系 gnomAD 团队

后续步骤

查看开放数据集目录中的其余数据集。