Share via


ClinVar-annoteringar

ClinVar är ett fritt offentligt arkiv med rapporter om relationer mellan mänskliga variationer och fenotyper samt bevis som stöder detta. Det möjliggör åtkomst till och kommunikation om hävdade relationer mellan mänskliga variationer och observerad hälsostatus samt historiken för sådana tolkningar. Det ger åtkomst till en bredare uppsättning kliniska tolkningar som kan implementeras i arbetsflöden för och tillämpningar av genomik.

Mer information om data finns i Dataordlistan och Vanliga frågor och svar.

Kommentar

Microsoft tillhandahåller Azure Open Datasets i befintligt fall. Microsoft ger inga garantier, uttryckliga eller underförstådda garantier eller villkor för din användning av datauppsättningarna. I den utsträckning som tillåts enligt din lokala lag frånsäger sig Microsoft allt ansvar för eventuella skador eller förluster, inklusive direkt, följdriktig, särskild, indirekt, tillfällig eller straffbar, till följd av din användning av datauppsättningarna.

Datamängden tillhandahålls enligt de ursprungliga villkor som gällde när Microsoft tog emot källdatan. Datamängden kan innehålla data från Microsoft.

Data source

Den här datauppsättningen är en spegling av ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/

Datavolymer och uppdateringsfrekvens

Den här datamängden innehåller cirka 56 GB data och uppdateras dagligen.

Lagringsplats

Den här datamängden lagras i Azure-regionerna USA, västra 2 och USA, västra centrala. Vi rekommenderar att beräkningsresurser allokeras i USA, västra 2 eller USA, västra centrala av tillhörighetsskäl.

Dataåtkomst

USA, västra 2: 'https://datasetclinvar.blob.core.windows.net/dataset'

USA, västra centrala: "https://datasetclinvar-secondary.blob.core.windows.net/dataset"

SAS-token: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D

Användningsvillkor

Data är tillgängliga utan begränsningar. Mer information och källhänvisningsinformation finns i Komma åt och använda data i ClinVar.

Kontaktperson

Om du vill ha frågor eller feedback om den här datauppsättningen kontaktar du clinvar@ncbi.nlm.nih.gov.

Dataåtkomst

Azure Notebooks

Hämta ClinVar-data från Azure Open Dataset

Flera offentliga genomikdata har laddats upp som en Azure Open Dataset här. Vi skapar en blobtjänst som är länkad till den här öppna datamängden. Du hittar exempel på proceduren för datasamtal från Azure Open Dataset för ClinVar datauppsättningen nedan:

Användare kan anropa och ladda ned följande sökväg med den här notebook-filen: 'https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5'

Kommentar

Användarna måste logga in sitt Azure-konto via Azure CLI för att kunna visa data med Azure ML SDK. Å andra sidan behöver de inte utföra några åtgärder för att ladda ned data.

Mer information om hur du installerar Azure CLI finns i Installera Azure CLI

Anropa data från "ClinVar Data Set"

import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os

REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
import pandas as pd

# create mount context
mount.start()

# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')

# read README file
metadata = pd.read_table(metadata_filename)
metadata

Ladda ned den specifika filen

import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')     
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')

Nästa steg

Visa resten av datauppsättningarna i katalogen Öppna datamängder.