Snabbstart: Köra ett arbetsflöde genom Microsoft Genomics-tjänsten
I den här snabbstarten laddar du upp indata till ett Azure Blob Storage-konto och kör ett arbetsflöde genom Microsoft Genomics-tjänsten med hjälp av Python Genomics-klienten. Microsoft Genomics är en skalbar, säker tjänst för sekundär analys som snabbt kan bearbeta ett genom, från råläsningar till produktion av anpassade läsningar och variantanrop.
Förutsättningar
- Ett Azure-konto med en aktiv prenumeration. Skapa ett konto utan kostnad.
- Python 2.7.12+,
pipmed installerat och ipythonsystemsökvägen. Klienten Microsoft Genomics är inte kompatibel med Python 3.
Konfigurera: Skapa ett Microsoft Genomics-konto på Azure Portal
Om du vill Microsoft Genomics ett konto navigerar du till Skapa ett Genomics-konto i Azure Portal. Om du ännu inte har en Azure-prenumeration kan du skapa en innan du skapar ett Microsoft Genomics-konto.

Skapa ditt Genomics-konto med följande information (se föregående bild):
| Inställning | Föreslaget värde | Fältbeskrivning |
|---|---|---|
| Prenumeration | Ditt prenumerationsnamn | Detta är faktureringsenheten för dina Azure-tjänster – mer information om din prenumeration finns under Prenumerationer |
| Resursgrupp | MinResursgrupp | Resursgrupper gör att du kan gruppera flera Azure-resurser (lagringskonto, Genomics-konto, o.s.v.) i en enda grupp för enkel hantering. Mer information finns i Resursgrupper. Information om giltiga resursgruppnamn finns under Namngivningsregler |
| Kontonamn | MittGenomicsKonto | Välj ett unikt konto-ID. Se Namngivningsregler för giltiga namn |
| Location | USA, västra 2 | Tjänsten är tillgänglig i USA, västra 2, Europa, västra och Sydostasien |
Du kan välja Meddelanden på den översta menyraden för att övervaka distributionsprocessen.

Mer information om Microsoft Genomics finns i Vad är Microsoft Genomics?
Konfigurera: Installera Microsoft Genomics Python-klienten
Du måste installera både Python och Microsoft Genomics Python-klienten msgen i din lokala miljö.
Installera Python
Den Microsoft Genomics Python-klienten är kompatibel med Python 2.7.12 eller en senare version av 2.7.xx. 2.7.14 är den föreslagna versionen. Du hittar nedladdningen här.
Viktigt
Python 3.x är inte kompatibelt med Python 2.7.xx. msgen är ett Python 2.7-program. När du msgen kör kontrollerar du att din aktiva Python-miljö använder en 2.7.xx-version av Python. Du kan få felmeddelanden när du försöker använda msgen med en 3.x-version av Python.
Installera Python Microsoft Genomics klienten msgen
Använd Python pip för att installera Microsoft Genomics klienten msgen . Följande instruktioner förutsätter att Python2.x redan finns i systemsökvägen. Om du har problem med att installationen inte känns igen måste du lägga till Python och pip skriptundermappen i systemsökvägen.
pip install --upgrade --no-deps msgen
pip install msgen
Om du inte vill installera som ett systemomfattande binärt och ändra msgen systemomfattande Python-paket använder du –-user flaggan med pip .
När du använder den paketbaserade installationen eller setup.py installeras alla nödvändiga paket.
Testa msgen Python-klienten
Om du vill Microsoft Genomics klienten laddar du ned konfigurationsfilen från genomics-kontot. I Azure Portal du till Ditt Genomics-konto genom att välja Alla tjänster längst upp till vänster och sedan söka efter och välja Genomics-konton.

Välj det Genomics-konto som du precis skapade, gå till Åtkomstnycklar och ladda ned konfigurationsfilen.

Kontrollera att Microsoft Genomics Python-klienten fungerar med följande kommando
msgen list -f "<full path where you saved the config file>"
Skapa ett Microsoft Azure Storage konto
I Microsoft Genomics-tjänsten förväntas indata lagras som blockblobar i ett Azure Storage-konto. Utdatafilerna skrivs också som blockblobar till en container som angetts av användaren i ett Azure Storage-konto. In- och utdata kan finnas i olika lagringskonton. Om du redan har data i ett Azure Storage-konto behöver du bara se till att det finns på samma plats som Genomics-kontot. Annars debiteras utgående avgifter när du kör Microsoft Genomics tjänsten. Om du inte har något Azure Storage-konto än måste du skapa ett och ladda upp dina data. Du hittar mer information om Azure Storage-konton här,inklusive vad ett lagringskonto är och vilka tjänster det tillhandahåller. Om du vill skapa ett Azure Storage-konto går du till Skapa lagringskonto i Azure Portal.

Konfigurera ditt lagringskonto med följande information, som du ser i föregående bild. Använd de flesta standardalternativen för ett lagringskonto och ange endast att kontot är BlobStorage, inte generell användning. Blob-lagring kan vara 2–5 gånger snabbare för ned- och uppladdningar. Standarddistributionsmodellen, Azure Resource Manager, rekommenderas.
| Inställning | Föreslaget värde | Fältbeskrivning |
|---|---|---|
| Prenumeration | Din Azure-prenumeration | Mer information om din prenumeration finns i Prenumerationer |
| Resursgrupp | MinResursgrupp | Du kan välja samma resursgrupp som genomics-kontot. Giltiga resursgruppsnamn finns i Namngivningsregler |
| Lagringskontonamn | MittLagringskonto | Välj ett unikt konto-ID. Giltiga namn finns i Namngivningsregler |
| Location | USA, västra 2 | Använd samma plats som platsen för Genomics-kontot för att minska kostnaderna för utgående data och minska svarstiden. |
| Prestanda | Standard | Standardinställningen är Standard. Mer information om standard- och premiumlagringskonton finns i Introduktion till Microsoft Azure storage |
| Typ av konto | BlobStorage | Blob-lagring kan vara 2–5 gånger snabbare än lagring generell användning för ned- och uppladdningar. |
| Replikering | Lokalt redundant lagring | Med lokalt redundant lagring replikeras dina data i datacentret i den region där du har skapat ditt lagringskonto. Mer information finns i Azure Storage replikering |
| Åtkomstnivå | Frekvent | Frekvent åtkomst indikerar att objekten på lagringskontot kommer att användas oftare. |
Välj sedan Granska + skapa för att skapa ditt lagringskonto. Precis som när du skapade Genomics-kontot kan du välja Meddelanden på den översta menyraden för att övervaka distributionsprocessen.
Ladda upp indata till ditt lagringskonto
Tjänsten Microsoft Genomics förväntar sig parkopplade slutläsningar (fastq- eller bam-filer) som indatafiler. Du kan välja att antingen ladda upp dina egna data eller utforska med offentligt tillgängliga exempeldata som du får. Om du vill använda offentligt tillgängliga exempeldata finns de här:
https://msgensampledata.blob.core.windows.net/small/chr21_1.fq.gz https://msgensampledata.blob.core.windows.net/small/chr21_2.fq.gz
I ditt lagringskonto måste du skapa en blob-container för dina indata och en andra blob-container för dina utdata. Ladda upp indata till blob-containern för indata. Olika verktyg kan användas för att göra detta, Microsoft Azure Storage Explorer, BlobPortereller AzCopy.
Köra ett arbetsflöde genom Microsoft Genomics tjänsten med hjälp av msgen Python-klienten
Om du vill köra ett arbetsflöde Microsoft Genomics tjänsten redigerar du config.txt för att ange lagringscontainern för indata och utdata för dina data. Öppna filen config.txt som du laddade ned från Genomics-kontot. De avsnitt som du behöver ange är din prenumerationsnyckel och de sex objekten längst ned, lagringskontots namn, nyckel och containernamn för både indata och utdata. Du hittar den här informationen genom att gå Azure Portal åtkomstnycklar för ditt lagringskonto eller direkt från Azure Storage Explorer.

Om du vill köra GATK4 anger du process_name parametern till gatk4 .
Som standard visar Genomics-tjänsten VCF-filer. Om du vill ha en gVCF-utdata i stället för en VCF-utdata (som motsvarar i -emitRefConfidence GATK 3.x och emit-ref-confidence i GATK 4.x), lägger du till parametern i emit_ref_confidence config.txt och anger den till , enligt föregående gvcf bild. Om du vill ändra tillbaka till VCF-utdata tar du antingen bortconfig.txt filen eller anger emit_ref_confidence parametern till none .
bgzip är ett verktyg som komprimerar vcf- eller gvcf-filen och tabix skapar ett index för den komprimerade filen. Som standard körs Genomics-tjänsten följt av på ".g.vcf"-utdata men kör inte dessa verktyg som standard för bgzip tabix ".vcf"-utdata. När tjänsten körs skapar den ".gz"-filer (bgzip-utdata) och ".tbi"-filer (tabix-utdata). Argumentet är ett booleskt argument som är inställt på false som standard för ".vcf"-utdata och till true som standard för ".g.vcf"-utdata. Om du vill använda på kommandoraden anger -bz du --bgzip-output eller som true (kör bgzip och tabix) eller false . Om du vill använda det här argumentetconfig.txt filen lägger du till eller i bgzip_output: true filen bgzip_output: false .
Skicka ditt arbetsflöde till Microsoft Genomics tjänsten med hjälp av msgen Python-klienten
Använd Microsoft Genomics Python-klienten för att skicka ditt arbetsflöde med följande kommando:
msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]
Du kan visa statusen för dina arbetsflöden med hjälp av följande kommando:
msgen list -f c:\temp\config.txt
När arbetsflödet har slutförts kan du visa utdatafilerna på ditt Azure Storage-konto i den utdatacontainer som du konfigurerade.
Nästa steg
I den här artikeln laddade du upp exempelindata till Azure Storage och skickade ett arbetsflöde till Microsoft Genomics tjänsten via msgen Python-klienten. Mer information om andra typer av indatafiler som kan användas med Microsoft Genomics tjänsten finns på följande sidor: par FASTQ | BAM | Multiple FASTQ eller BAM.