Lidské referenční genomy

Tato datová sada obsahuje dva odkazy na lidské genomy sestavené konsorciem Genome Reference Consortium: Hg19 a Hg38.

Další informace o datech Hg19 (GRCh37) najdete ve studii GRCh37 na NCBI.

Další informace o datech Hg38 najdete ve studii GRCh38 na NCBI.

Další informace o těchto datech najdete na webu NCBI RefSeq.

Poznámka

Microsoft poskytuje datové sady Azure Open Datasets podle toho, jak je. Společnost Microsoft neposkytuje žádné záruky, výslovné nebo implicitní záruky nebo podmínky týkající se vašeho používání datových sad. V rozsahu povoleném podle vašeho místního práva Microsoft zřeknou veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, speciálních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Zdroj dat

Zdrojem této datové sady jsou dvě umístění FTP:

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/all_assembly_versions/GCF_000001405.25_GRCh37.p13/

ftp://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

Názvy objektů blob začínají segmentem "vertebrate_mammalian" identifikátoru URI.

Objemy dat a frekvence aktualizací

Tato datová sada obsahuje přibližně 10 GB a aktualizuje se každý den.

Umístění úložiště

Tato datová sada se uchovává v těchto oblastech Azure: USA – středozápad a USA – západ 2. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti USA – středozápad nebo USA – západ 2.

Přístup k datům

USA – západ 2: 'https://datasetreferencegenomes.blob.core.windows.net/dataset'

USA – středozápad: 'https://datasetreferencegenomes-secondary.blob.core.windows.net/dataset'

Token SAS: sv=2019-02-02se&=2050-01-01T08%3A00%3A00%3A00Zsi&=prodsr&=csig&=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D

Podmínky použití

Data jsou k dispozici bez omezení. Další informace a podrobnosti citace najdete v lokalitě databáze referenční sekvence NCBI.

Kontakt

Pokud získáte jakékoli dotazy nebo zpětnou vazbu k této datové sadě, obraťte se na konsorcium Genome Reference Consortium.

Přístup k datům

Azure Notebooks

Získání referenčních genomů z open datových sad Azure

Několik veřejných genomických dat se tady nahrálo jako datová sada Azure Open. Vytvoříme službu blob propojenou s touto otevřenou datovou sadou. Příklady volání dat z Azure Open Datasets pro Reference Genomes datovou sadu najdete níže:

Uživatelé můžou volat a stahovat následující cestu s tímto poznámkovým blokem: 'https://datasetreferencegenomes.blob.core.windows.net/dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure/genomic_regions_definitions.txt'

Důležitá poznámka: Uživatelé se musí přihlásit ke svému účtu Azure přes Azure CLI pro zobrazení dat pomocí sady Azure ML SDK. Na druhé straně nemusí provádět žádné akce pro stahování dat.

Nainstalujte Azure CLI.

Volání dat z referenčních datových sad Genome

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetreferencegenomes.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to genomic_regions_definitions.txt file
REF_DIR = 'vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, 'genomic_regions_definitions.txt')

# read genomic_regions_definitions.txt file
metadata = pd.read_table(metadata_filename)
metadata

Stažení konkrétního souboru

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetreferencegenomes',sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=JtQoPFqiC24GiEB7v9zHLi4RrA2Kd1r%2F3iFt2l9%2FlV8%3D')     
blob_service_client.get_blob_to_path('dataset/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_assembly_structure', 'genomic_regions_definitions.txt', './genomic_regions_definitions.txt')

Další kroky

Zobrazte zbytek datových sad v katalogu Open Datasets.