ClinVar-annoteringar
ClinVar är ett fritt offentligt arkiv med rapporter om relationer mellan mänskliga variationer och fenotyper samt bevis som stöder detta. Det möjliggör åtkomst till och kommunikation om hävdade relationer mellan mänskliga variationer och observerad hälsostatus samt historiken för sådana tolkningar. Det ger åtkomst till en bredare uppsättning kliniska tolkningar som kan implementeras i arbetsflöden för och tillämpningar av genomik.
Mer information om data finns i Dataordlistan och Vanliga frågor och svar.
Kommentar
Microsoft tillhandahåller Azure Open Datasets i befintligt fall. Microsoft ger inga garantier, uttryckliga eller underförstådda garantier eller villkor för din användning av datauppsättningarna. I den utsträckning som tillåts enligt din lokala lag frånsäger sig Microsoft allt ansvar för eventuella skador eller förluster, inklusive direkt, följdriktig, särskild, indirekt, tillfällig eller straffbar, till följd av din användning av datauppsättningarna.
Datamängden tillhandahålls enligt de ursprungliga villkor som gällde när Microsoft tog emot källdatan. Datamängden kan innehålla data från Microsoft.
Data source
Den här datauppsättningen är en spegling av ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/
Datavolymer och uppdateringsfrekvens
Den här datamängden innehåller cirka 56 GB data och uppdateras dagligen.
Lagringsplats
Den här datamängden lagras i Azure-regionerna USA, västra 2 och USA, västra centrala. Vi rekommenderar att beräkningsresurser allokeras i USA, västra 2 eller USA, västra centrala av tillhörighetsskäl.
Dataåtkomst
USA, västra 2: 'https://datasetclinvar.blob.core.windows.net/dataset'
USA, västra centrala: "https://datasetclinvar-secondary.blob.core.windows.net/dataset"
SAS-token: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D
Användningsvillkor
Data är tillgängliga utan begränsningar. Mer information och källhänvisningsinformation finns i Komma åt och använda data i ClinVar.
Kontaktperson
Om du vill ha frågor eller feedback om den här datauppsättningen kontaktar du clinvar@ncbi.nlm.nih.gov.
Dataåtkomst
Azure Notebooks
Hämta ClinVar-data från Azure Open Dataset
Flera offentliga genomikdata har laddats upp som en Azure Open Dataset här. Vi skapar en blobtjänst som är länkad till den här öppna datamängden. Du hittar exempel på proceduren för datasamtal från Azure Open Dataset för ClinVar
datauppsättningen nedan:
Användare kan anropa och ladda ned följande sökväg med den här notebook-filen: 'https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5'
Kommentar
Användarna måste logga in sitt Azure-konto via Azure CLI för att kunna visa data med Azure ML SDK. Å andra sidan behöver de inte utföra några åtgärder för att ladda ned data.
Mer information om hur du installerar Azure CLI finns i Installera Azure CLI
Anropa data från "ClinVar Data Set"
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')
# read README file
metadata = pd.read_table(metadata_filename)
metadata
Ladda ned den specifika filen
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')
Nästa steg
Visa resten av datauppsättningarna i katalogen Öppna datamängder.