Szybki start: Uruchamianie przepływu za pośrednictwem usługi Microsoft Genomics

W tym przewodniku Szybki start przekażesz dane wejściowe na konto usługi Azure Blob Storage i uruchomisz przepływ pracy za pośrednictwem usługi Microsoft Genomics przy użyciu klienta python Genomics. Microsoft Genomics to skalowalna, bezpieczna usługa umożliwiająca dodatkową analizę zapewniającą szybkie przetwarzanie genomów, począwszy od pierwotnych operacji odczytywania i tworzenia dopasowanych operacji odczytywania i wywołań odmian.

Wymagania wstępne

Konfiguracja: tworzenie konta usługi Microsoft Genomics w witrynie Azure Portal

Aby utworzyć konto usługi Microsoft Genomics, przejdź do pozycji Tworzenie konta usługi Genomics w Azure Portal. Jeśli nie masz jeszcze subskrypcji platformy Azure, utwórz ją przed utworzeniem konta usługi Microsoft Genomics.

Usługa Microsoft Genomics w usłudze Azure Portal

Skonfiguruj konto usługi Genomics w sposób pokazany na wcześniejszej ilustracji, używając następujących informacji.

Ustawienie Sugerowana wartość Opis pola
Subskrypcja Nazwa subskrypcji użytkownika Jest to jednostka rozliczeniowa usług platformy Azure — aby uzyskać szczegółowe informacje o subskrypcji, zobacz Subskrypcje
Grupa zasobów MyResourceGroup Grupy zasobów umożliwiają grupowanie wielu zasobów platformy Azure (konto magazynu, konto usługi Genomics itp.) w jednej grupie, co upraszcza zarządzanie. Aby uzyskać więcej informacji, zobacz Grupy zasobów. Prawidłowe nazwy grup zasobów opisano w artykule Reguły nazewnictwa
Nazwa konta MyGenomicsAccount Wybierz unikatowy identyfikator konta. Aby uzyskać informacje o prawidłowych nazwach, zobacz Reguły nazewnictwa
Lokalizacja Zachodnie stany USA 2 Usługa jest dostępna w regionach: Zachodnie stany USA 2, Europa Zachodnia i Azja Południowo-Wschodnia

Możesz wybrać pozycję Powiadomienia na górnym pasku menu, aby monitorować proces wdrażania.

Powiadomienia

Aby uzyskać więcej informacji na temat usługi Microsoft Genomics, zobacz Co to jest usługa Microsoft Genomics?

Konfiguracja: instalacja klienta Microsoft Genomics Python

Musisz zainstalować zarówno język Python, jak i klienta msgen języka Python usługi Microsoft Genomics w środowisku lokalnym.

Instalowanie języka Python

Klient microsoft Genomics Python jest zgodny z językiem Python 2.7.12 lub nowszym w wersji 2.7.xx. 2.7.14 jest sugerowaną wersją. Pliki do pobrania możesz znaleźć tutaj.

Ważne

Język Python 3.x nie jest zgodny z językiem Python 2.7.xx. msgen to aplikacja w języku Python 2.7. Podczas uruchamiania msgenprogramu upewnij się, że aktywne środowisko języka Python korzysta z wersji 2.7.xx języka Python. Podczas próby użycia msgen z językiem Python w wersji 3.x mogą wystąpić błędy.

Instalowanie klienta języka Python usługi Microsoft Genomics msgen

Użyj języka Python pip , aby zainstalować klienta msgenusługi Microsoft Genomics. W poniższych instrukcjach założono, że środowisko Python2.x znajduje się już w ścieżce systemowej. Jeśli masz problemy z pip brakiem rozpoznawania instalacji, musisz dodać język Python i podfolder skryptów do ścieżki systemowej.

pip install --upgrade --no-deps msgen
pip install msgen

Jeśli nie chcesz instalować msgen jako plików binarnych dla całego systemu i modyfikować pakietów języka Python dla całego systemu, użyj flagi –-user z pip. W przypadku korzystania z instalacji opartej na pakietach lub setup.py instalowane są wszystkie wymagane pakiety.

Testowanie msgen klienta języka Python

Aby przetestować klienta usługi Microsoft Genomics, pobierz plik konfiguracji z konta usługi Genomics. W Azure Portal przejdź do konta usługi Genomics, wybierając pozycję Wszystkie usługi w lewym górnym rogu, a następnie wyszukując i wybierając pozycję Konta usługi Genomics.

Znajdź usługę Microsoft Genomics w witrynie Azure Portal

Wybierz właśnie utworzone konto usługi Genomics, przejdź do pozycji Klucze dostępu i pobierz plik konfiguracji.

Pobierz plik konfiguracji z usługi Microsoft Genomics

Przetestuj działanie klienta Microsoft Genomics Python przy użyciu następującego polecenia:

msgen list -f "<full path where you saved the config file>"

Tworzenie konta Microsoft Azure Storage

Usługa Microsoft Genomics oczekuje przechowywania danych wejściowych w formie blokowych obiektów blob na koncie magazynu platformy Azure. Usługa również zapisuje pliki wyjściowe jako blokowe obiekty blob w kontenerze określonym przez użytkownika na koncie magazynu platformy Azure. Pliki wejściowe i wyjściowe mogą znajdować się w różnych kontach magazynu. Jeśli masz już dane na koncie magazynu platformy Azure, musisz tylko upewnić się, że znajdują się w tej samej lokalizacji co konto usługi Genomics. W przeciwnym razie opłaty za ruch wychodzący są naliczane podczas uruchamiania usługi Microsoft Genomics. Jeśli nie masz jeszcze konta usługi Azure Storage, musisz utworzyć je i przekazać dane. Więcej informacji o kontach usługi Azure Storage można znaleźć tutaj, w tym o tym, co to jest konto magazynu i jakie usługi zapewnia. Aby utworzyć konto usługi Azure Storage, przejdź do sekcji Tworzenie konta magazynu w Azure Portal.

Strona tworzenia konta magazynu —

Skonfiguruj konto magazynu przy użyciu poniższych informacji, jak pokazano na poprzedniej ilustracji. Użyj większości standardowych opcji dla konta magazynu, określając tylko to, że konto to BlobStorage, a nie ogólnego przeznaczenia. Magazyn obiektów blob może być 2–5 razy szybszy w przypadku pobierania i przekazywania. Zalecany jest domyślny model wdrażania platformy Azure Resource Manager.

Ustawienie Sugerowana wartość Opis pola
Subskrypcja Twoja subskrypcja platformy Azure Aby uzyskać szczegółowe informacje o subskrypcji, zobacz Subskrypcje
Grupa zasobów MyResourceGroup Możesz wybrać tę samą grupę zasobów co konto usługi Genomics. Prawidłowe nazwy grup zasobów można znaleźć w temacie Naming rules (Reguły nazewnictwa)
Nazwa konta magazynu MyStorageAccount Wybierz unikatowy identyfikator konta. Prawidłowe nazwy można znaleźć w temacie Naming rules (Reguły nazewnictwa)
Lokalizacja Zachodnie stany USA 2 Użyj tej samej lokalizacji co lokalizacja konta usługi Genomics, aby zmniejszyć opłaty za ruch wychodzący i zmniejszyć opóźnienie.
Wydajność Standardowa Wartość domyślna to Standardowa. Aby uzyskać więcej informacji na temat kont magazynu w warstwie Standardowa i Premium, zobacz Wprowadzenie do usługi Microsoft Azure Storage
Rodzaj konta BlobStorage Magazyn obiektów blob może być 2–5 razy szybszy od konta ogólnego przeznaczenia w przypadku pobierania i przekazywania.
Replikacja Magazyn lokalnie nadmiarowy Magazyn lokalnie nadmiarowy replikuje dane w centrum danych w regionie, w którym utworzono konto magazynu. Aby uzyskać więcej informacji, zobacz Replikacja usługi Azure Storage
Warstwa dostępu Gorąca Gorąca warstwa dostępu oznacza, że dostęp do obiektów na koncie magazynu będzie uzyskiwany częściej.

Następnie wybierz pozycję Przejrzyj i utwórz , aby utworzyć konto magazynu. Podobnie jak w przypadku tworzenia konta usługi Genomics, możesz wybrać pozycję Powiadomienia na górnym pasku menu, aby monitorować proces wdrażania.

Przekazywanie danych wejściowych do konta magazynu

Usługa Microsoft Genomics oczekuje sparowanych odczytów końcowych (plików fastq lub bam) jako plików wejściowych. Możesz przekazać własne dane lub eksplorować publicznie dostępne dane przykładowe.

Na koncie magazynu musisz utworzyć jeden kontener obiektów blob na dane wejściowe oraz drugi kontener obiektów blob na dane wyjściowe. Przekaż dane wejściowe do kontenera wejściowych obiektów blob. W tym celu można użyć różnych narzędzi, takich jak Eksplorator usługi Microsoft Azure Storage, BlobPorter lub AzCopy.

Uruchamianie przepływu pracy za pośrednictwem usługi Microsoft Genomics przy użyciu msgen klienta języka Python

Aby uruchomić przepływ pracy za pośrednictwem usługi Microsoft Genomics, zmodyfikuj plik config.txt , aby określić kontener magazynu wejściowego i wyjściowego dla danych. Otwórz plik config.txt pobrany z konta usługi Genomics. W sekcjach, które należy określić, są kluczem subskrypcji i sześcioma elementami u dołu, nazwą konta magazynu, kluczem i nazwą kontenera zarówno dla danych wejściowych, jak i wyjściowych. Te informacje można znaleźć, przechodząc w Azure Portal do obszaru Klucze dostępu dla konta magazynu lub bezpośrednio z Eksplorator usługi Azure Storage.

usługi Genomics GenomicsKonfiguracja

Jeśli chcesz uruchomić gaTK4, ustaw process_name parametr na gatk4.

Domyślnie usługa Genomics generuje pliki VCF. Jeśli chcesz, aby dane wyjściowe gVCF, a nie dane wyjściowe VCF (równoważne -emitRefConfidence w gaTK 3.x i emit-ref-confidence GATK 4.x), dodaj emit_ref_confidence parametr do config.txt i ustaw go na gvcf, jak pokazano na poprzedniej ilustracji. Aby powrócić do danych wyjściowych programu VCF, usuń go z pliku config.txt lub ustaw emit_ref_confidence parametr na none.

bgzip to narzędzie, które kompresuje plik vcf lub gvcf i tabix tworzy indeks skompresowanego pliku. Domyślnie usługa Genomics jest uruchamiana bgzip po tabix danych wyjściowych ".g.vcf", ale domyślnie nie uruchamia tych narzędzi dla danych wyjściowych ".vcf". Po uruchomieniu usługa generuje pliki ".gz" (dane wyjściowe bgzip) i ".tbi" (dane wyjściowe tabix). Argument jest wartością logiczną, która jest domyślnie ustawiona na wartość false dla danych wyjściowych ".vcf" i domyślnie dla danych wyjściowych ".g.vcf". Aby użyć w wierszu polecenia, określ -bz lub --bgzip-output jako true (uruchom bgzip i tabix) lub false. Aby użyć tego argumentu w pliku config.txt , dodaj bgzip_output: true lub bgzip_output: false do pliku.

Przesyłanie przepływu pracy do usługi Microsoft Genomics przy użyciu msgen klienta języka Python

Użyj klienta Microsoft Genomics Python, aby przesłać przepływ pracy przy użyciu następującego polecenia:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

Możesz wyświetlić stan przepływów pracy przy użyciu następującego polecenia:

msgen list -f c:\temp\config.txt 

Po zakończeniu przepływu pracy możesz wyświetlić pliki wyjściowe na koncie usługi Azure Storage w skonfigurowanym kontenerze wyjściowym.

Następne kroki

W tym artykule przekazano przykładowe dane wejściowe do usługi Azure Storage i przesłano przepływ pracy do usługi Microsoft Genomics za pośrednictwem msgen klienta języka Python. Aby dowiedzieć się więcej o innych typach plików wejściowych, które mogą być używane z usługą Microsoft Genomics, zobacz następujące strony: sparowane FASTQBAM | Wiele FASTQ | lub BAM.