Poznámky ClinVar

ClinVar je volně dostupný veřejný archiv studií o vztazích mezi lidskou variabilitou a fenotypy, včetně podpůrných důkazů. Zajišťuje přístup k údajným vztahům mezi lidskou variabilitou a zjištěným zdravotním stavem a k historii této interpretace a umožňuje o nich komunikovat. Poskytuje přístup k širší škále klinických interpretací, které je možné začlenit do aplikací a pracovních postupů genomiky.

Další informace o datech najdete ve slovníku dat a nejčastějších dotazech.

Poznámka:

Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.

Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.

Zdroj dat

Tato datová sada je zrcadlem ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/

Objemy dat a frekvence aktualizací

Tato datová sada obsahuje přibližně 56 GB a aktualizuje se každý den.

Umístění úložiště

Tato datová sada se uchovává v těchto oblastech Azure: USA – středozápad a USA – západ 2. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti USA – středozápad nebo USA – západ 2.

Přístup k datům

USA – západ 2: 'https://datasetclinvar.blob.core.windows.net/dataset'

USA – středozápad: 'https://datasetclinvar-secondary.blob.core.windows.net/dataset'

Token SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D

Podmínky použití

Data jsou k dispozici bez omezení. Další informace a podrobnosti citace najdete v tématu Přístup k datům v ClinVar a jejich používání.

Kontakt

Pokud máte jakékoli dotazy nebo zpětnou vazbu k této datové sadě, obraťte se na clinvar@ncbi.nlm.nih.gov.

Přístup k datům

Azure Notebooks

Získání dat ClinVar z Azure Open Dataset

Několik veřejných dat genomiky se tady nahrálo jako datová sada Azure Open Dataset. Vytvoříme službu blob propojenou s touto otevřenou datovou sadou. Příklady volání dat z Azure Open Dataset pro ClinVar datovou sadu najdete níže:

Uživatelé můžou volat a stahovat následující cestu s tímto poznámkovým blokem:https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5

Poznámka:

Uživatelé se musí přihlásit ke svému účtu Azure prostřednictvím Azure CLI, aby si mohli prohlížet data pomocí sady Azure ML SDK. Na druhou stranu nepotřebují ke stažení dat žádné akce.

Další informace o instalaci Azure CLI najdete v tématu Instalace Azure CLI.

Volání dat ze sady dat ClinVar

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')

# read README file
metadata = pd.read_table(metadata_filename)
metadata

Stažení konkrétního souboru

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')     
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')

Další kroky

Prohlédněte si zbývající datové sady v katalogu Open Datasets.