Poznámky ClinVar
ClinVar je volně dostupný veřejný archiv studií o vztazích mezi lidskou variabilitou a fenotypy, včetně podpůrných důkazů. Zajišťuje přístup k údajným vztahům mezi lidskou variabilitou a zjištěným zdravotním stavem a k historii této interpretace a umožňuje o nich komunikovat. Poskytuje přístup k širší škále klinických interpretací, které je možné začlenit do aplikací a pracovních postupů genomiky.
Další informace o datech najdete ve slovníku dat a nejčastějších dotazech.
Poznámka:
Microsoft poskytuje datové sady Azure Open Datasets na bázi "tak, jak je". Společnost Microsoft neposkytuje žádné záruky, výslovné ani předpokládané záruky ani podmínky týkající se vašeho používání datových sad. V rozsahu povoleném vaším místním zákonem společnost Microsoft odmítá veškerou odpovědnost za případné škody nebo ztráty, včetně přímých, následných, zvláštních, nepřímých, náhodných nebo represivních, vyplývajících z vašeho používání datových sad.
Na tuto datovou sadu se vztahují původní podmínky, které Microsoft přijal se zdrojovými daty. Datová sada může obsahovat data pocházející z Microsoftu.
Zdroj dat
Tato datová sada je zrcadlem ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/
Objemy dat a frekvence aktualizací
Tato datová sada obsahuje přibližně 56 GB a aktualizuje se každý den.
Umístění úložiště
Tato datová sada se uchovává v těchto oblastech Azure: USA – středozápad a USA – západ 2. Kvůli přidružení se doporučuje přidělovat výpočetní prostředky v oblasti USA – středozápad nebo USA – západ 2.
Přístup k datům
USA – západ 2: 'https://datasetclinvar.blob.core.windows.net/dataset'
USA – středozápad: 'https://datasetclinvar-secondary.blob.core.windows.net/dataset'
Token SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D
Podmínky použití
Data jsou k dispozici bez omezení. Další informace a podrobnosti citace najdete v tématu Přístup k datům v ClinVar a jejich používání.
Kontakt
Pokud máte jakékoli dotazy nebo zpětnou vazbu k této datové sadě, obraťte se na clinvar@ncbi.nlm.nih.gov.
Přístup k datům
Azure Notebooks
Získání dat ClinVar z Azure Open Dataset
Několik veřejných dat genomiky se tady nahrálo jako datová sada Azure Open Dataset. Vytvoříme službu blob propojenou s touto otevřenou datovou sadou. Příklady volání dat z Azure Open Dataset pro ClinVar
datovou sadu najdete níže:
Uživatelé můžou volat a stahovat následující cestu s tímto poznámkovým blokem:https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5
Poznámka:
Uživatelé se musí přihlásit ke svému účtu Azure prostřednictvím Azure CLI, aby si mohli prohlížet data pomocí sady Azure ML SDK. Na druhou stranu nepotřebují ke stažení dat žádné akce.
Další informace o instalaci Azure CLI najdete v tématu Instalace Azure CLI.
Volání dat ze sady dat ClinVar
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')
# read README file
metadata = pd.read_table(metadata_filename)
metadata
Stažení konkrétního souboru
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')
Další kroky
Prohlédněte si zbývající datové sady v katalogu Open Datasets.