Краткое руководство. Запуск рабочего процесса в службе Microsoft GenomicsQuickstart: Run a workflow through the Microsoft Genomics service

В этом кратком руководстве объясняется, как загрузить входные данные в хранилище BLOB-объектов Azure и запустить рабочий процесс в службе Microsoft Genomics.This quickstart shows how to load input data into Azure Blob Storage and run a workflow through the Microsoft Genomics service. Microsoft Genomics — это масштабируемая надежная служба вторичного анализа, которая может быстро обрабатывать геном, начиная с простых операций чтения до выполнения согласованного считывания и вызовов вариантов.Microsoft Genomics is a scalable, secure service for secondary analysis that can rapidly process a genome, starting from raw reads and producing aligned reads and variant calls.

Начните работу, выполнив несколько шагов:Get started in just a few steps:

  1. Настройка. Создайте учетную запись Microsoft Genomics на портале Azure и установите клиент Python Microsoft Genomics в локальной среде.Set up: Create a Microsoft Genomics account through the Azure portal, and install the Microsoft Genomics Python client in your local environment.
  2. Передача входных данных. Создайте учетную запись хранения Microsoft Azure на портале Azure и отправьте входные файлы.Upload input data: Create a Microsoft Azure storage account through the Azure portal, and upload the input files. Входные файлы должны быть парными файлами для чтения (FASTQ или BAM).The input files should be paired end reads (fastq or bam files).
  3. Выполните команду: Запустите рабочие процессы в службе Microsoft Genomics с помощью интерфейса командной строки Microsoft Genomics.Run: Use the Microsoft Genomics command-line interface to run workflows through the Microsoft Genomics service.

Дополнительные сведения о Microsoft Genomics см. в этой статье.For more information on Microsoft Genomics, see What is Microsoft Genomics?

Настройка. Создание учетной записи Microsoft Genomics на портале AzureSet up: Create a Microsoft Genomics account in the Azure portal

Чтобы создать учетную запись Microsoft Genomics, перейдите на портал Azure.To create a Microsoft Genomics account, navigate to the Azure portal. Если у вас нет подписки Azure, создайте ее, прежде чем создавать учетную запись Microsoft Genomics.If you don’t have an Azure subscription yet, create one before creating a Microsoft Genomics account.

Microsoft Genomics на портале AzureMicrosoft Genomics on Azure portal

Настройте учетную запись Genomics, указав следующую информацию, как показано на предыдущем рисунке.Configure your Genomics account with the following information, as shown in the preceding image.

ПараметрSetting Рекомендуемое значениеSuggested value Описание поляField description
ПодпискаSubscription Имя вашей подпискиYour subscription name Это единица выставления счетов для служб Azure. Дополнительные сведения см. на странице подписокThis is the billing unit for your Azure services - For details about your subscription see Subscriptions
Группа ресурсовResource group MyResourceGroupMyResourceGroup Группы ресурсов позволяют объединить несколько ресурсов Azure (учетная запись хранения, учетная запись Genomics и т. д.) в одну группу для простоты управления.Resource groups allow you to group multiple Azure resources (storage account, genomics account, etc.) into a single group for simple management. Дополнительные сведения см. в разделе Группы ресурсов.For more information, see Resource Groups. Допустимые имена групп ресурсов см. в статье Соглашения об именовании.For valid resource group names, see Naming Rules
Имя учетной записиAccount name MyGenomicsAccountMyGenomicsAccount Выберите уникальный идентификатор учетной записи.Choose a unique account identifier. Допустимые имена см. в статье Соглашения об именовании.For valid names, see Naming Rules
РасположениеLocation Западный регион США 2West US 2 Служба доступна в таких регионах: западная часть США 2, Западная Европа и Юго-Восточная Азия.Service is available in West US 2, West Europe, and Southeast Asia

В строке меню вверху выберите пункт "Уведомления", чтобы отслеживать процесс развертывания.You can click Notifications in the top menu bar to monitor the deployment process. Уведомления Microsoft GenomicsMicrosoft Genomics Notifications

Настройка. Установка клиента Microsoft Genomics PythonSet up: Install the Microsoft Genomics Python client

Пользователи должны установить в своей локальной среде два клиента: Python и Microsoft Genomics Python.Users need to install both Python and the Microsoft Genomics Python client in their local environment.

Установка PythonInstall Python

Клиент Microsoft Genomics Python совместим с Python 2.7.The Microsoft Genomics Python client is compatible with Python 2.7. 2.7.xx 12 или более поздней версии; 2.7.15 является последней версией на момент написания этой статьи; 2.7.14 является рекомендуемой версией.12 or later 2.7.xx version; 2.7.15 is the latest version at the time of this writing; 2.7.14 is the suggested version. Файл установки можно скачать здесь.You can find the download here.

Примечание. Версия Python 3.x не совместима с версией Python 2.7.xx.NOTE: Python 3.x isn't compatible with Python 2.7.xx. MSGen — это приложение Python 2.7.MSGen is a Python 2.7 application. При выполнении MSGen убедитесь, что вы используете в своей среде Python версию Python 2.7.xx.When running MSGen, make sure that your active Python environment is using a 2.7.xx version of Python. При попытке использования MSGen с версией Python 3.x могут возникнуть ошибки.You may get errors when trying to use MSGen with a 3.x version of Python.

Установка клиента Microsoft GenomicsInstall the Microsoft Genomics client

Для установки клиента Microsoft Genomics msgen используйте pip для Python.Use Python pip to install the Microsoft Genomics client msgen. В следующих инструкциях предполагается, что Python уже есть в системном пути.The follow instructions assume Python is already in your system path. Если не удается распознать установку pip, добавьте Python и вложенную папку скриптов в системный путь.If you have issues with pip install not recognized, you need to add Python and the scripts subfolder to your system path.

pip install --upgrade --no-deps msgen
pip install msgen

Если вы не хотите устанавливать msgen как двоичный файл во всей системе и изменять пакеты Python во всей системе, используйте флаг –-user с pip.If you do not want to install msgen as a system-wide binary and modify system-wide Python packages, use the –-user flag with pip. Если вы выполняете установку с помощью пакетов или файла setup.py, устанавливаются все необходимые пакеты.If you use the package-based installation or setup.py, all necessary required packages are installed. Если вы выполняете установку иначе, базовые необходимые пакеты для msgen можно скачать по этим ссылкам:Otherwise, the basic required packages for msgen are

Эти пакеты также можно установить с помощью pip, easy_install или стандартной процедуры setup.py.You can install these packages using pip, easy_install or through standard setup.py procedures.

Тестирование клиента Microsoft GenomicsTest the Microsoft Genomics client

Чтобы протестировать клиент Microsoft Genomics, скачайте файл конфигурации из своей учетной записи Genomics.To test the Microsoft Genomics client, download the config file from your genomics account. Чтобы перейти к учетной записи Genomics, выберите пункт Все службы в левом верхнем углу, отфильтруйте службы и выберите учетную запись Genomics.Navigate to your genomics account by clicking All services in the top left, filtering, and selecting for genomics accounts.

Фильтр для Microsoft Genomics на портале AzureFilter for Microsoft Genomics on Azure portal

Выберите учетную запись Genomics, которую вы только что создали, откройте раздел Ключи доступа и скачайте файл конфигурации.Select the genomics account you just made, navigate to Access Keys and download the configuration file.

Скачивание файла конфигурации из Microsoft GenomicsDownload config file from Microsoft Genomics

Протестируйте работу клиента Microsoft Genomics Python с помощью следующей команды:Test that the Microsoft Genomics Python client is working with the following command

msgen list -f “<full path where you saved the config file>”

Создание учетной записи хранения Microsoft AzureCreate a Microsoft Azure Storage Account

Служба Microsoft Genomics ожидает входные файлы в виде блочных BLOB-объектов в учетной записи хранения Azure.The Microsoft Genomics service expects inputs to be stored as block blobs in an Azure storage account. Она также записывает выходные файлы как блочные BLOB-объекты в определенный пользователем контейнер в учетной записи хранения Azure.It also writes output files as block blobs to a user-specified container in an Azure storage account. Входные и выходные файлы могут находиться в разных учетных записях хранения.The inputs and outputs can reside in different storage accounts. Если в вашей учетной записи хранения Azure уже есть данные, вам нужно только убедиться, что она находится в том же расположении, что и учетная запись Genomics.If you already have your data in an Azure storage account, you only need to make sure that it is in the same location as your Genomics account. Иначе при запуске службы Genomics вы будете оплачивать исходящие данные.Otherwise, egress charges are incurred when running the Genomics service. Если у вас еще нет учетной записи хранения Microsoft Azure, необходимо создать ее и отправить туда данные.If you don’t yet have a Microsoft Azure Storage account, you need to create one and upload your data. Дополнительные сведения об учетных записях хранения Azure см. здесь. Из этой статьи вы узнаете, что такое учетная запись хранения и для чего она нужна.You can find more information about Azure Storage accounts here, including what a storage account is and what services it provides. Чтобы создать учетную запись хранения Microsoft Azure, перейдите на портал Azure.To create a Microsoft Azure Storage account, navigate to the Azure portal.

Колонка создания учетной записи храненияStorage create blade

Настройте учетную запись хранения, указав следующую информацию, как показано на предыдущем рисунке.Configure your Storage account with the following information, as shown in the preceding image. Используйте стандартные параметры для учетной записи хранения. Укажите только, что она не является учетной записью общего назначения, а предназначена для хранилища BLOB-объектов.Use most of the standard options for a storage account, specifying only that the account is blob storage, not general purpose. В хранилище BLOB-объектов операции скачивания или отправки могут выполняться в 2–5 раз быстрее.Blob storage can be 2-5x faster for downloads and uploads. Рекомендуется модель развертывания по умолчанию (Resource Manager).The default deployment model, resource manager, is recommended.

ПараметрSetting Рекомендуемое значениеSuggested value Описание поляField description
ПодпискаSubscription Ваша подписка Azure.Your Azure subscription Дополнительные сведения о подписках см. здесь.For details about your subscription see Subscriptions
Группа ресурсовResource group MyResourceGroupMyResourceGroup Можно выбрать группу ресурсов, к которой относится учетная запись Genomics.You can select the same resource group as your genomics account. Допустимые имена групп ресурсов см. в статье Соглашения об именовании.For valid resource group names, see Naming Rules
Имя учетной записи храненияStorage account name MyStorageAccountMyStorageAccount Выберите уникальный идентификатор учетной записи.Choose a unique account identifier. Допустимые имена см. в статье Соглашения об именовании.For valid names, see Naming Rules
РасположениеLocation Западный регион США 2West US 2 Используйте то же расположение, что и для учетной записи Genomics, для сокращения расходов на исходящие данные и уменьшения задержки при передаче данных.Use the same location as the location of your genomics account, to reduce egress charges, and reduce latency.
ПроизводительностьPerformance СтандартнаяStandard По умолчанию используется уровень "Стандартный".The default is standard. Дополнительные сведения об учетных записях хранения уровня "Стандартный" и "Премиум" см. в статье Введение в хранилище Microsoft Azure.For more details on standard and premium storage accounts, see Introduction to Microsoft Azure Storage
Тип учетной записиAccount kind Хранилище BLOB-объектовBlob storage В хранилище BLOB-объектов операции скачивания или отправки могут выполняться в 2–5 раз быстрее, чем в хранилище общего назначения.Blob storage can be 2-5x faster than general purpose for downloads and uploads.
РепликацияReplication Локально избыточное хранилищеLocally redundant storage Локально избыточное хранилище реплицирует ваши данные в центр данных в регионе, в котором создана учетная запись хранения.Locally redundant storage replicates your data within the datacenter in the region you created your storage account. Дополнительные сведения см. в статье о репликации службы хранилища Azure.For more information, see Azure Storage replication
Уровень доступаAccess tier ГорячийHot Горячий уровень доступа означает, что доступ к объектам в учетной записи хранения будет осуществляться часто.Hot access indicates objects in the storage account will be more frequently accessed.

Нажмите кнопку Review + create, чтобы создать учетную запись хранения.Then click Review + create to create your storage account. Как и во время создания учетной записи Genomics, вы можете выбрать значок уведомлений в строке меню вверху, чтобы отслеживать процесс развертывания.As you did with the creation of your Genomics Account, you can click Notifications in the top menu bar to monitor the deployment process.

Передача входных данных в учетную запись храненияUpload input data to your storage account

Служба Microsoft Genomics ожидает в качестве входных файлов парные файлы для чтения.The Microsoft Genomics service expects paired end reads as input files. Вы можете отправить собственные данные или использовать общедоступные примеры данных.You can choose to either upload your own data, or explore using publicly available sample data provided for you. Если вы хотите использовать общедоступные примеры данных, вы найдете их по ссылкам ниже:If you would like to use the publicly available sample data, it is hosted here:

https://msgensampledata.blob.core.windows.net/small/chr21_1.fq.gz https://msgensampledata.blob.core.windows.net/small/chr21_2.fq.gz

Создайте в своей учетной записи хранения один контейнер больших двоичных объектов для входных данных и еще один — для выходных данных.Within your storage account, you need to make one blob container for your input data and a second blob container for your output data. Передайте входные данные в контейнер больших двоичных объектов.Upload the input data into your input blob container. Для этого можно использовать различные инструменты, например Обозреватель службы хранилища Microsoft Azure, blobporter или AzCopy.Various tools can be used to do this, including Microsoft Azure Storage Explorer, blobporter, or AzCopy.

Запуск рабочего процесса в службе Microsoft Genomics с помощью PythonRun a workflow through the Microsoft Genomics service using the Python client

Для запуска рабочего процесса в службе Microsoft Genomics измените файл config.txt, указав в нем контейнер хранилища входных и выходных данных.To run a workflow through the Microsoft Genomics service, edit the config.txt file to specify the input and output storage container for your data. Откройте файл config.txt, скачанный из учетной записи Genomics.Open the config.txt file that you downloaded from your Genomics account. Разделы, которые необходимо указать: ключ подписки и шесть элементов в конце файла (имя учетной записи хранения, ключ и имя контейнера для входных данных, имя учетной записи хранения, ключ и имя контейнера для выходных данных).The sections you need to specify are your subscription key and the six items at the bottom, the storage account name, key and container name for both the input and output. Чтобы найти эти сведения, перейдите на портале в раздел Ключи доступа вашей учетной записи хранения или непосредственно в обозреватель службы хранилища Azure.You can find this information by navigating in the portal to Access keys for your storage account, or directly from the Azure Storage Explorer.

Конфигурация GenomicsGenomics config

Если необходимо запустить GATK4, установите значение gatk4 для параметра process_name.If you would like to run GATK4, set the process_name parameter to gatk4.

Служба Genomics записывает файлы VCF по умолчанию.By default, the Genomics service outputs VCF files. Если необходимо получить выходные данные gVCF вместо выходных данных VCF (эквивалентные -emitRefConfidence в GATK 3.x и emit-ref-confidence в GATK 4.x), добавьте параметр emit_ref_confidence в ваш config.txt и установите для него gvcf, как показано на рисунке, приведенном выше.If you would like a gVCF output rather than a VCF output (equivalent to -emitRefConfidence in GATK 3.x and emit-ref-confidence in GATK 4.x), add the emit_ref_confidence parameter to your config.txt and set it to gvcf, as shown in the above figure. Чтобы изменить выходные данные VCF, удалите их из файла config.txt или установите для параметра emit_ref_confidence значение none.To change back to VCF output, either remove it from the config.txt file or set the emit_ref_confidence parameter to none.

Отправка рабочего процесса в клиент Microsoft Genomics службы Microsoft GenomicsSubmit your workflow to the Microsoft Genomics service the Microsoft Genomics client

Используйте клиент Microsoft Genomics Python для отправки рабочего процесса с помощью следующей команды:Use the Microsoft Genomics Python client to submit your workflow with the following command:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

Чтобы просмотреть состояние рабочего процесса, используйте следующую команду:You can view the status of your workflows using the following command:

msgen list -f c:\temp\config.txt 

После выполнения рабочего процесса вы можете просмотреть выходные файлы в контейнере выходных данных своей учетной записи хранения Azure.Once your workflow completes, you can view the output files in your Azure Storage Account in the output container that you configured.

Дополнительная информацияNext steps

С помощью инструкций из этой статьи вы научились отправлять примеры входных данных в службу хранилища Azure и отправлять рабочий процесс в службу Microsoft Genomics через клиент Python msgen.In this article, you uploaded sample input data into Azure Storage and submitted a workflow to the Microsoft Genomics service through the msgen Python client. Дополнительные сведения о других типах входных файлов, которые могут использоваться в службе Microsoft Genomics, см. в статьях об отправке парных FASTQ-файлов | BAM-файлов | нескольких FASTQ- или BAM-файлов.To learn more about other input file types that can be used with the Microsoft Genomics service, see the following pages: paired FASTQ | BAM | Multiple FASTQ or BAM. Кроме того, вы можете выполнить задачи в этом руководстве с помощью нашего руководства службы "Записные книжки Azure".You can also explore this tutorial using our Azure notebook tutorial.