Human Reference Genomes

이 데이터 세트에는 게놈 참조 컨소시엄에 의해 조립된 두 개의 인간 게놈 참조 Hg19 및 Hg38이 포함됩니다.

Hg19(GRCh37) 데이터에 대한 자세한 내용은 NCBI의 GRCh37 보고서를 참조하세요.

Hg38 데이터에 대한 자세한 내용은 NCBI의 GRCh38 보고서를 참조하세요.

이 데이터에 대한 기타 세부 정보는 NCBI RefSeq 사이트에서 확인할 수 있습니다.

참고 항목

Microsoft는 Azure Open Datasets를 “있는 그대로” 제공합니다. Microsoft는 귀하의 데이터 세트 사용과 관련하여 어떠한 명시적이거나 묵시적인 보증, 보장 또는 조건을 제공하지 않습니다. 귀하가 거주하는 지역의 법규가 허용하는 범위 내에서 Microsoft는 귀하의 데이터 세트 사용으로 인해 발생하는 일체의 직접적, 결과적, 특별, 간접적, 부수적 또는 징벌적 손해 또는 손실을 비롯한 모든 손해 또는 손실에 대한 모든 책임을 부인합니다.

이 데이터 세트는 Microsoft가 원본 데이터를 받은 원래 사용 약관에 따라 제공됩니다. 데이터 세트에는 Microsoft가 제공한 데이터가 포함될 수 있습니다.

데이터 원본

이 데이터 세트의 출처는 다음의 두 FTP 위치입니다.

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

Blob 이름은 URI의 "vertebrate_mammalian" 세그먼트부터 접두사로 지정됩니다.

데이터 볼륨 및 업데이트 빈도

이 데이터 세트는 약 10GB의 데이터를 포함하며 매일 업데이트됩니다.

스토리지 위치

이 데이터 세트는 미국 서부 2, 미국 중서부 및 미국 중남부 Azure 지역에 저장됩니다. 선호도를 위해 미국 서부 2 또는 미국 중서부 또는 미국 중남부에서 컴퓨팅 리소스를 할당하는 것이 좋습니다.

데이터 액세스

미국 서부 2: 'https://datasetreferencegenomes.blob.core.windows.net/dataset'

미국 중서부: 'https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset'

SAS 토큰: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D

미국 중남부: 'https://datasetreferencegenomesc.blob.core.windows.net/dataset'

SAS 토큰: sv=2023-01-03&st=2024-02-12T20%3A07%3A21Z&se=2029-02-13T20%3A07%3A00Z&sr=c&sp=rl&sig=ASZYVyhqLOXKsT%2BcTR8MblFeI4uZ%2Bnno%2FCnQk2RaFs%3D

사용 약관

데이터는 제한 없이 사용할 수 있습니다. 자세한 내용 및 인용 세부 정보는 NCBI Reference Sequence Database site(NCBI 참조 시퀀스 데이터베이스 사이트)를 참조하세요.

연락처

이 데이터 세트에 대한 질문이나 피드백은 Genome Reference Consortium(게놈 참조 컨소시엄)에 문의하세요.

데이터 액세스

Azure Notebooks

Azure Open Datasets에서 참조 게놈 가져오기

여러 가지 퍼블릭 유전체학 데이터가 Azure Open Datasets로 여기에 업로드되었습니다. 이 개방형 데이터 세트에 연결된 Blob 서비스를 만듭니다. 아래의 데이터 세트에 대한 Reference Genomes Azure Open Datasets에서 데이터 호출 절차의 예를 찾을 수 있습니다.

사용자는 이 Notebook을 통해 'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt' 경로를 호출하여 다운로드할 수 있습니다.

중요 참고: 사용자는 Azure ML SDK를 사용하여 데이터를 보기 위해 Azure CLI를 통해 Azure 계정에 로그인해야 합니다. 반면, 데이터를 다운로드하기 위해 어떤 작업도 수행할 필요가 없습니다.

Azure CLI를 설치합니다.

‘참조 게놈 데이터 세트’에서 데이터 호출

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

특정 파일 다운로드

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

다음 단계

Open Datasets 카탈로그에서 나머지 데이터 세트를 봅니다.