Human Reference Genomes

Этот набор данных включает два референсных генома человека, составленных Консорциумом референсного генома: Hg19 и Hg38.

Дополнительные сведения о данных Hg19 (GRCh37) см. в отчете GRCh37 Национального центра биотехнологической информации (NCBI).

Дополнительные сведения о данных Hg38 см. в отчете GRCh38 NCBI.

Другие сведения о данных см. на сайте NCBI RefSeq.

Примечание.

Корпорация Майкрософт предоставляет Открытые наборы данных Azure как есть. Корпорация Майкрософт не предоставляет никаких гарантий (явных или подразумеваемых) и не определяет никаких условий в связи с использованием этих наборов данных. В рамках, допускаемых местным законодательством, корпорация Майкрософт отказывается от ответственности за ущерб и убытки (в том числе прямые, косвенные, специальные, опосредованные, случайные и штрафные), понесенные в результате использования вами этих наборов данных.

Этот набор данных предоставляется на тех же условиях, на которых корпорация Майкрософт получила исходные данные. Этот набор может включать данные, полученные от корпорации Майкрософт.

Источник данных

Источниками данных для этого набора данных являются два расположения FTP:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

К именам BLOB-объектов добавляется префикс, начинающийся с части URI vertebrate_mammalian.

Объемы данных и частота обновления

Этот набор данных содержит примерно 10 ГБ данных и обновляется ежедневно.

Расположение хранилища

Этот набор данных хранится в регионах Azure "Западная часть США 2", "Западная часть США" и "Южная часть США". Выделение вычислительных ресурсов в западной части США 2 или центрально-западной части США или южной части США рекомендуется для сходства.

Доступ к данным

Западная часть США 2: https://datasetreferencegenomes.blob.core.windows.net/dataset

Центрально-западная часть США: https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset

Маркер SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D

Южная центральная часть США: "https://datasetreferencegenomesc.blob.core.windows.net/dataset"

Токен SAS: sv=2023-01-03&st=2024-02-12T20%3A07%3A21Z&se=2029-02-13T20%3A07%3A00Z&sr=c=rl&sig=ASZYVyvyhloXKsT%2BcTR8MMblFeI4uZ%2Bnno%2FCnQk2RaFs%3D

Условия использования

Доступ к данным предоставляется без ограничений. Дополнительные сведения и сведения для цитирования см. на сайте базы данных референсных последовательностей NCBI.

Контакт

Со всеми вопросами и отзывами об этом наборе данных обращайтесь в Консорциум референсного генома.

Доступ к данным

Записные книжки Azure

Получение данных Reference Genomes из Открытых наборов данных Azure

Несколько общедоступных наборов данных геномики были отправлены в виде открытого набора данных Azure. Сведения о них приведены здесь. Мы создадим службу BLOB-объектов, связанную с этим открытым набором данных. Ниже приведены примеры процедуры вызова данных из Открытых наборов данных Azure для набора данных Reference Genomes.

Пользователи могут обратиться по следующему пути, чтобы скачать эту записную книжку: https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt.

Важное примечание. Пользователям необходимо войти в учетную запись Azure с помощью Azure CLI для просмотра данных с помощью пакета SDK для Машинного обучения Azure. С другой стороны, для скачивания данных никаких действий не требуется.

Установка Azure CLI.

Вызов данных из наборов данных эталонного генома

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

Скачивание определенного файла

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

Следующие шаги

Ознакомьтесь с другими наборами в каталоге Открытых наборов данных.