Snelstartgids: een werkstroom uitvoeren via de service Microsoft GenomicsQuickstart: Run a workflow through the Microsoft Genomics service

In deze quickstart uploadt u invoergegevens naar een Azure Blob-opslagaccount en voert u een werkstroom uit via de Microsoft Genomics-service met behulp van de Python Genomics-client.In this quickstart, you upload input data into an Azure Blob storage account, and run a workflow through the Microsoft Genomics service by using the Python Genomics client. Microsoft Genomics is een schaalbare, veilige service voor secundaire analyse waarbij genomen snel kunnen worden verwerkt. Hierbij wordt begonnen met onbewerkte leesbewerkingen en worden vervolgens uitgelijnde leesbewerkingen en variant-aanroepen geproduceerd.Microsoft Genomics is a scalable, secure service for secondary analysis that can rapidly process a genome, starting from raw reads and producing aligned reads and variant calls.

VereistenPrerequisites

Instellen: een Microsoft Genomics-account in Azure Portal makenSet up: Create a Microsoft Genomics account in the Azure portal

Als u een Microsoft Genomics-account wilt maken, navigeert u naar Een Genomics-account maken in de Azure-portal.To create a Microsoft Genomics account, navigate to Create a Genomics account in the Azure portal. Als u nog geen Azure-abonnement hebt, maakt u er een voordat u een Microsoft Genomics-account maakt.If you don’t have an Azure subscription yet, create one before creating a Microsoft Genomics account.

Microsoft Genomics op Azure-portalMicrosoft Genomics on Azure portal

Configureer uw Genomics-account met de volgende informatie, zoals weergegeven in de vorige afbeelding.Configure your Genomics account with the following information, as shown in the preceding image.

InstellingSetting Voorgestelde waardeSuggested value VeldbeschrijvingField description
AbonnementSubscription De naam van uw abonnementYour subscription name Dit is de factureringseenheid voor uw Azure-services; zie Abonnementen voor meer informatie over uw abonnement.This is the billing unit for your Azure services - For details about your subscription see Subscriptions
ResourcegroepResource group MyResourceGroupMyResourceGroup Met resourcegroepen kunt u meerdere Azure-resources (opslagaccount, Genomics-account enzovoort) in één groep indelen voor eenvoudig beheer.Resource groups allow you to group multiple Azure resources (storage account, genomics account, etc.) into a single group for simple management. Zie Resourcegroepen voor meer informatie.For more information, see Resource Groups. Zie Naamgevingsregels voor geldige resourcegroepnamen.For valid resource group names, see Naming Rules
AccountnaamAccount name MyGenomicsAccountMyGenomicsAccount Kies een unieke account-id.Choose a unique account identifier. Zie Naamgevingsregels voor geldige namen.For valid names, see Naming Rules
LocatieLocation VS - west 2West US 2 De service is beschikbaar in VS - west 2, Europa - west en Azië - zuidoostService is available in West US 2, West Europe, and Southeast Asia

U Meldingen selecteren in de bovenste menubalk om het implementatieproces te controleren.You can select Notifications in the top menu bar to monitor the deployment process.

MeldingenNotifications

Zie Wat is Microsoft Genomics voor meer informatie over Microsoft Genomics?For more information about Microsoft Genomics, see What is Microsoft Genomics?

Instellen: de Python-client voor Microsoft Genomics installerenSet up: Install the Microsoft Genomics Python client

U moet zowel Python als de Microsoft Genomics Python-client in uw lokale omgeving installeren.You need to install both Python and the Microsoft Genomics Python client in your local environment.

Python installerenInstall Python

De Microsoft Genomics Python-client is compatibel met Python 2.7.12 of een latere 2.7.xx-versie.The Microsoft Genomics Python client is compatible with Python 2.7.12 or a later 2.7.xx version. 2.7.14 is de voorgestelde versie.2.7.14 is the suggested version. U vindt de download hier.You can find the download here.

Belangrijk

Python 3.x is niet compatibel met Python 2.7.xx.Python 3.x isn't compatible with Python 2.7.xx. MSGen is een Python 2.7-toepassing.MSGen is a Python 2.7 application. Zorg er bij het uitvoeren van MSGen voor dat uw actieve Python-omgeving een 2.7.xx-versie van Python gebruikt.When running MSGen, make sure that your active Python environment is using a 2.7.xx version of Python. Er treden mogelijk fouten op bij gebruik van MSGen met een 3.x-versie van Python.You may get errors when trying to use MSGen with a 3.x version of Python.

De Microsoft Genomics-client installerenInstall the Microsoft Genomics client

Gebruik pip Python om de msgenMicrosoft Genomics-client te installeren.Use Python pip to install the Microsoft Genomics client msgen. Bij de volgende instructies wordt ervan uitgegaan dat Python al op het systeempad staat.The follow instructions assume Python is already in your system path. Als u problemen pip hebt met installatie die niet wordt herkend, moet u Python en de submap scripts toevoegen aan uw systeempad.If you have issues with pip install not recognized, you need to add Python and the scripts subfolder to your system path.

pip install --upgrade --no-deps msgen
pip install msgen

Als u niet wilt msgen installeren als een systeembrede binaire en wijzigen systeem-brede Python pakketten, gebruik maken van de –-user vlag met pip.If you don't want to install msgen as a system-wide binary and modify system-wide Python packages, use the –-user flag with pip. Als u de installatie op basis van een pakket of setup.py gebruikt, worden alle vereiste pakketten geïnstalleerd.If you use the package-based installation or setup.py, all necessary required packages are installed. Anders zijn de basisvereiste pakketten voor msgenOtherwise, the basic required packages for msgen are

U kunt deze pakketten installeren met pip, easy_install of via de standaard setup.py-procedures.You can install these packages using pip, easy_install or through standard setup.py procedures.

De Microsoft Genomics-client testenTest the Microsoft Genomics client

Download het config-bestand van uw Genomics-account om de Microsoft Genomics-client te testen.To test the Microsoft Genomics client, download the config file from your Genomics account. Navigeer in de Azure-portal naar uw Genomics-account door Alle services linksboven te selecteren en vervolgens naar Genomics-accounts te zoeken en te selecteren.In the Azure portal, navigate to your Genomics account by selecting All services in the top left, and then searching for and selecting Genomics accounts.

Microsoft Genomics zoeken op Azure-portalFind Microsoft Genomics on Azure portal

Selecteer het Genomics-account dat u zojuist hebt gemaakt, navigeer naar Toegangssleutelsen download het configuratiebestand.Select the Genomics account you just made, navigate to Access Keys, and download the configuration file.

Config-bestand downloaden van Microsoft GenomicsDownload config file from Microsoft Genomics

Test of de Python-client voor Microsoft Genomics werkt met de volgende opdrachtTest that the Microsoft Genomics Python client is working with the following command

msgen list -f "<full path where you saved the config file>"

Een Microsoft Azure Storage-account makenCreate a Microsoft Azure Storage account

De service Microsoft Genomics verwacht dat invoeren worden opgeslagen als blok-blobs in een Azure-opslagaccount.The Microsoft Genomics service expects inputs to be stored as block blobs in an Azure storage account. Ook schrijft de service uitvoerbestanden als blok-blobs naar een door de gebruiker opgegeven container in een Azure-opslagaccount.It also writes output files as block blobs to a user-specified container in an Azure storage account. De invoeren en uitvoeren kunnen zich in verschillende opslagaccounts bevinden.The inputs and outputs can reside in different storage accounts. Als u uw gegevens al in een Azure-opslagaccount hebt, hoeft u alleen ervoor te zorgen dat deze zich op dezelfde locatie bevinden als uw Genomics-account.If you already have your data in an Azure storage account, you only need to make sure that it is in the same location as your Genomics account. Anders worden er kosten in rekening gebracht bij het uitvoeren van de Microsoft Genomics-service.Otherwise, egress charges are incurred when running the Microsoft Genomics service. Als u nog geen Azure-opslagaccount hebt, moet u er een maken en uw gegevens uploaden.If you don’t yet have an Azure storage account, you need to create one and upload your data. Hier vindt u meer informatie over Azure-opslagaccounts,inclusief wat een opslagaccount is en welke services het biedt.You can find more information about Azure storage accounts here, including what a storage account is and what services it provides. Als u een Azure-opslagaccount wilt maken, navigeert u naar Opslagaccount maken in de Azure-portal.To create an Azure storage account, navigate to Create storage account in the Azure portal.

Pagina Opslagaccount makenStorage account create page

Configureer uw opslagaccount met de volgende gegevens, zoals weergegeven in de vorige afbeelding.Configure your storage account with the following information, as shown in the preceding image. Gebruik de meeste standaardopties voor een opslagaccount, waarbij alleen wordt opgegeven dat het account BlobStorage is, geen algemeen doel.Use most of the standard options for a storage account, specifying only that the account is BlobStorage, not general purpose. Blob-opslag kan twee tot vijf keer sneller zijn voor downloads en uploads.Blob storage can be 2-5x faster for downloads and uploads. Het standaardimplementatiemodel Azure Resource Manager wordt aanbevolen.The default deployment model, Azure Resource Manager, is recommended.

InstellingSetting Voorgestelde waardeSuggested value VeldbeschrijvingField description
AbonnementSubscription Uw Azure-abonnementYour Azure subscription Zie Abonnementen voor meer informatie over uw abonnement.For details about your subscription see Subscriptions
ResourcegroepResource group MyResourceGroupMyResourceGroup U dezelfde resourcegroep selecteren als uw Genomics-account.You can select the same resource group as your Genomics account. Zie Naamregels voor geldige resourcegroepenFor valid resource group names, see Naming rules
Naam van opslagaccountStorage account name MyStorageAccountMyStorageAccount Kies een unieke account-id.Choose a unique account identifier. Zie Naamregels voor geldige namenFor valid names, see Naming rules
LocatieLocation VS - west 2West US 2 Gebruik dezelfde locatie als de locatie van uw Genomics-account om de kosten voor uitweiding te verminderen en de latentie te verminderen.Use the same location as the location of your Genomics account, to reduce egress charges, and reduce latency.
PrestatiesPerformance StandardStandard Standard is de standaardinstelling.The default is standard. Zie Inleiding tot Microsoft Azure-opslag voor meer informatie over standaard- en premiumopslagaccountsFor more details on standard and premium storage accounts, see Introduction to Microsoft Azure storage
Soort accountAccount kind BlobOpslagBlobStorage Blob-opslag kan twee tot vijf keer sneller zijn dan algemeen gebruik voor downloads en uploads.Blob storage can be 2-5x faster than general purpose for downloads and uploads.
ReplicatieReplication Lokaal redundante opslagLocally redundant storage Lokaal redundante opslag repliceert uw gegevens in het datacenter in de regio waarin u uw opslagaccount hebt gemaakt.Locally redundant storage replicates your data within the datacenter in the region you created your storage account. Zie Azure Storage-replicatie voor meer informatieFor more information, see Azure Storage replication
ToegangslaagAccess tier WarmHot De toegangslaag Hot geeft aan dat de objecten in het opslagaccount vaker worden gebruikt.Hot access indicates objects in the storage account will be more frequently accessed.

Selecteer vervolgens Controleren + maken om uw opslagaccount te maken.Then select Review + create to create your storage account. Net als bij het aanmaken van uw Genomics-account u Meldingen selecteren in de bovenste menubalk om het implementatieproces te controleren.As you did with the creation of your Genomics account, you can select Notifications in the top menu bar to monitor the deployment process.

De invoergegevens naar uw opslagaccount uploadenUpload input data to your storage account

De Microsoft Genomics-service verwacht gekoppelde eindreads (fastq- of bam-bestanden) als invoerbestanden.The Microsoft Genomics service expects paired end reads (fastq or bam files) as input files. U kunt uw eigen gegevens uploaden, of openbare voorbeeldgegevens verkennen die voor u beschikbaar zijn gesteld.You can choose to either upload your own data, or explore using publicly available sample data provided for you. De openbare voorbeeldgegevens worden hier gehost:If you would like to use the publicly available sample data, it is hosted here:

https://msgensampledata.blob.core.windows.net/small/chr21_1.fq.gz https://msgensampledata.blob.core.windows.net/small/chr21_2.fq.gz

U dient binnen uw opslagaccount een blob-container te maken voor uw invoergegevens en een tweede blob-container voor de uitvoergegevens.Within your storage account, you need to make one blob container for your input data and a second blob container for your output data. Upload de invoergegevens naar uw blob-container voor invoer.Upload the input data into your input blob container. Hiervoor kunnen verschillende hulpprogramma's worden gebruikt, waaronder Microsoft Azure Storage Explorer, BlobPorterof AzCopy.Various tools can be used to do this, including Microsoft Azure Storage Explorer, BlobPorter, or AzCopy.

Een werkstroom uitvoeren via de Microsoft Genomics-service met behulp van de Python-clientRun a workflow through the Microsoft Genomics service using the Python client

Als u een werkstroom wilt uitvoeren via de Microsoft Genomics-service, bewerkt u het config.txt-bestand om de invoer- en uitvoeropslagcontainer voor uw gegevens op te geven.To run a workflow through the Microsoft Genomics service, edit the config.txt file to specify the input and output storage container for your data. Open het config.txt-bestand dat u hebt gedownload van uw Genomics-account.Open the config.txt file that you downloaded from your Genomics account. De secties die u moet opgeven zijn uw abonnementssleutel en de zes items onderaan, de naam van het opslagaccount, de sleutel en de containernaam voor zowel de invoer als de uitvoer.The sections you need to specify are your subscription key and the six items at the bottom, the storage account name, key, and container name for both the input and output. U deze informatie vinden door te navigeren in de Azure-portal naar Toegangssleutels voor uw opslagaccount of rechtstreeks vanuit de Azure Storage Explorer.You can find this information by navigating in the Azure portal to Access keys for your storage account, or directly from the Azure Storage Explorer.

Genomics configGenomics config

Als u GATK4 wilt uitvoeren, process_name stelt gatk4u de parameter in op .If you would like to run GATK4, set the process_name parameter to gatk4.

De Genomics-service voert standaard VCF-bestanden uit.By default, the Genomics service outputs VCF files. Als u een gVCF-uitvoer wilt in plaats -emitRefConfidence van een VCF-uitgang (gelijk aan in GATK 3.x emit-ref-confidence en in GATK 4.x), voegt u emit_ref_confidence de parameter toe aan uw config.txt en stelt u deze in op gvcf, zoals in de voorgaande figuur wordt weergegeven.If you would like a gVCF output rather than a VCF output (equivalent to -emitRefConfidence in GATK 3.x and emit-ref-confidence in GATK 4.x), add the emit_ref_confidence parameter to your config.txt and set it to gvcf, as shown in the preceding figure. Als u terug wilt gaan naar VCF-uitvoer, verwijdert u emit_ref_confidence deze noneuit het config.txt-bestand of stelt u de parameter in op .To change back to VCF output, either remove it from the config.txt file or set the emit_ref_confidence parameter to none.

De werkstroom in de service Microsoft Genomics verzenden met de client voor Microsoft GenomicsSubmit your workflow to the Microsoft Genomics service the Microsoft Genomics client

Gebruik de Python-client voor Microsoft Genomics om uw werkstroom te verzenden met de volgende opdracht:Use the Microsoft Genomics Python client to submit your workflow with the following command:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

U kunt de status van uw werkstromen bekijken met de volgende opdracht:You can view the status of your workflows using the following command:

msgen list -f c:\temp\config.txt 

Zodra uw werkstroom is voltooid, u de uitvoerbestanden in uw Azure-opslagaccount weergeven in de uitvoercontainer die u hebt geconfigureerd.Once your workflow completes, you can view the output files in your Azure storage account in the output container that you configured.

Volgende stappenNext steps

In dit artikel hebt u voorbeeldinvoergegevens geüpload naar Azure-opslag msgen en een werkstroom ingediend bij de Microsoft Genomics-service via de Python-client.In this article, you uploaded sample input data into Azure storage and submitted a workflow to the Microsoft Genomics service through the msgen Python client. Zie de volgende pagina's: gekoppelde FASTQ | BAM | Multiple FASTQ of BAMvoor meer informatie over andere invoerbestandstypen die kunnen worden gebruikt met de Microsoft Genomics-service.To learn more about other input file types that can be used with the Microsoft Genomics service, see the following pages: paired FASTQ | BAM | Multiple FASTQ or BAM. U kunt ook deze zelfstudie lezen met behulp van de Azure notebook tutorial (Zelfstudie in Azure-notitieblokken).You can also explore this tutorial using our Azure notebook tutorial.