التشغيل السريع: تشغيل سير عمل باستخدام خدمة Microsoft Genomics

في هذا التشغيل السريع تقوم بتحميل بيانات الإدخال إلى حساب Azure Blob storage وتشغيل سير عمل من خلال خدمة Microsoft Genomics باستخدام عميل Python Genomics. Microsoft Genomics هي خدمة قابلة لتغيير الحجم وآمنة للتحليل الثانوي التي يمكن أن تعالج بسرعة الجينوم، بدءاً من عمليات القراءة البسيطة وإنتاج قراءات محاذاة ومكالمات المتغيرة.

المتطلبات الأساسية

إعداد: إنشاء حساب Microsoft Genomics في مدخل Microsoft Azure

لإنشاء حساب Microsoft Genomics، انتقل لـ ⁧⁩Create a Genomics account⁧⁩ في مدخل Microsoft Azure. إذا لم يكن لديك اشتراك Azure بعد، فقم بإنشاء واحد قبل إنشاء حساب Microsoft Genomics.

Microsoft Genomics على مدخل

تكوين حساب Genomics خاص بك مع المعلومات التالية، كما هو موضح في الصورة السابقة.

الإعداد القيمة المقترحة وصف الحقل
الاشتراك اسم الاشتراك الخاص بك هذه هي وحدة الفوترة لخدماتك Azure - للمزيد من المعلومات حول اشتراكك، راجع ⁧⁩الاشتراكات⁧
مجموعة الموارد MyResourceGroup تسمح لك مجموعات الموارد بتجميع موارد Azure متعددة (حساب تخزين وحساب جينوم وما إلى ذلك) في مجموعة واحدة لتبسيط الإدارة. لمزيد من المعلومات، راجع ⁧⁩مجموعات الموارد⁧⁩. للحصول على أسماء مجموعات موارد صالحة، راجع ⁧⁩قواعد التسمية⁧
اسم الحساب MyGenomicsAccount اختر معرف حساب مميزاً. لأسماء صالحة، راجع ⁧⁩قواعد التسمية⁧
‏‏الموقع منطقة غرب الولايات المتحدة الأمريكية 2 تتوفر الخدمة في غرب الولايات المتحدة 2 وأوروبا الغربية وجنوب شرق آسيا

يمكنك تحديد ⁧⁩Notifications⁧⁩ في شريط القائمة العلوي لمراقبة عملية النشر.

إشعارات

لمزيد من المعلومات حول Microsoft Genomics، راجع ⁧⁩ما هو Microsoft Genomics؟⁧

إعداد: تثبيت عميل Microsoft Genomics Python

تحتاج إلى تثبيت كل من Python وعميل Microsoft Genomics Python ⁧msgen⁩ في بيئتك المحلية.

تثبيت Python

عميل Microsoft Genomics Python متوافق مع Python 2.7.12 أو إصدار الأحدث 2.7.xx. 2.7.14 هو الإصدار المقترح. يمكنك العثور على التنزيل ⁧⁩هنا⁧⁩.

هام

Python 3.x غير متوافق مع Python 2.7.xx. ⁧msgen⁩ هو تطبيق Python 2.7. عند تشغيل ⁧msgen⁩، تأكد من أن بيئة Python النشطة تستخدم إصدار Python 2.7.xx. قد تواجهك أخطاء عند محاولة استخدام ⁧msgen⁩ مع إصدار Python 3.x.

تثبيت عميل Microsoft Genomics Python ⁧msgen

استخدم Python ⁧pip⁩ لتثبيت عميل Microsoft Genomics Python⁧msgen⁩. تفترض الإرشادات التالية أن Python2.x موجود بالفعل في مسار النظام الخاص بك. إذا كان لديك مشكلات بأن تثبيت ⁧pip⁩ غير معروف، فأنت بحاجة إلى إضافة Python ومجلد نصوص فرعي إلى مسار النظام الخاص بك.

pip install --upgrade --no-deps msgen
pip install msgen

إذا كنت لا ترغب في تثبيت ⁧msgen⁩ كحزم ثنائية على مستوى النظام وتعديل حزم Python على مستوى النظام، استخدم علامة ⁧–-user⁩ مع ⁧pip⁩. عند استخدام التثبيت المستند إلى الحزمة أو setup.py، يتم تثبيت كافة الحزم الضرورية المطلوبة.

اختبار عميل ⁧msgen⁩ Python

لاختبار عميل Microsoft Genomics، قم بتنزيل ملف التكوين من حساب Genomics الخاص بك. في مدخل Microsoft Azure، انتقل إلى حساب Genomics الخاص بك عن طريق تحديد ⁧⁩All services⁧⁩ في الجزء العلوي الأيسر، ثم ابحث عن حسابات Genomics واحفظها.

ابحث عن Microsoft Genomics على مدخل Microsoft Azure

حدد حساب Genomics الذي قمت بعمله للتو، انتقل إلى ⁧⁩Access Keys⁧⁩، وقم بتنزيل ملف التكوين.

قم بتنزيل ملف التكوين منMicrosoft Genomics

اختبار عميل Microsoft Genomics Python يعمل مع الأمر التالي

msgen list -f "<full path where you saved the config file>"

إنشاء حساب Microsoft Azure Storage

تتوقع خدمة Microsoft Genomics أن يتم تخزين المدخلات ككائنات ثنائية كبيرة الحجم للكتلة في حساب Azure storage. كما أنها تكتب ملفات الإخراج ككائنات ثنائية كبيرة الحجم للكتلة إلى حاوية مستخدم محدد في حساب Azure storage. يمكن أن تتواجد المدخلات والمخرجات في حسابات تخزين مختلفة. إذا كان لديك بالفعل بياناتك في حساب Azure storage، فلن تحتاج إلا إلى التأكد من أنها موجودة في نفس موقع كحساب Genomics الخاص بك. وإلا، يتم تكبد رسوم الخروج عند تشغيل خدمة Microsoft Genomics. إذا لم يكن لديك حساب تخزين Azure بعد، فأنت بحاجة إلى إنشاء حساب وتحميل بياناتك. يمكنك العثور على مزيد من المعلومات حول حسابات Azure storage ⁧⁩هنا⁧⁩، بما في ذلك ما هو حساب التخزين وما هي الخدمات التي يوفرها. لإنشاء حساب Azure storage، انتقل إلى ⁧⁩إنشاء حساب تخزين ⁧⁩ في مدخل Microsoft Azure.

صفحة إنشاء حساب التخزين

قم بتكوين حساب التخزين الخاص بك باستخدام المعلومات التالية، كما هو موضح في الصورة السابقة. استخدم معظم الخيارات القياسية لحساب تخزين، مع تحديد أن الحساب هو BlobStorage فقط، وليس غرضاً عاماً. يمكن أن يكون مخزن البيانات الثنائية الكبيرة أسرع بمرتين إلى 5 مرات للتنزيل والتحميل. يُوصى بنموذج النشر الافتراضي، Azure Resource Manager.

الإعداد القيمة المقترحة وصف الحقل
الاشتراك اشتراكك في Azure للحصول على تفاصيل حول اشتراكك، راجع ⁧⁩الاشتراكات⁧
مجموعة الموارد MyResourceGroup يمكنك تحديد نفس مجموعة الموارد مثل حساب Genomics الخاص بك. للحصول على أسماء مجموعات موارد صالحة، راجع ⁧⁩قواعد التسمية⁧
اسم حساب التخزين MyStorageAccount اختر معرف حساب مميزاً. لأسماء صالحة، راجع ⁧⁩قواعد التسمية⁧
‏‏الموقع منطقة غرب الولايات المتحدة الأمريكية 2 استخدم نفس الموقع كموقع حساب Genomics الخاص بك، لتقليل رسوم الخروج، وتقليل زمن الانتقال.
الأداء قياسي القيمة الافتراضية هي القياسية. لمزيد من التفاصيل حول حسابات التخزين القياسية والمتميزة، راجع ⁧⁩مقدمة عن Microsoft Azure Storage⁧
نوع الحساب BlobStorage يمكن أن يكون مخزن البيانات الثنائية الكبيرة أسرع بمرتين إلى 5 مرات من الغرض العام للتنزيل والتحميل.
النسخ المتماثل التخزين المتكرر محلياً تقوم سعة التخزين المكررة محلياً بنسخ بياناتك نسخاً متماثلاً داخل مركز البيانات في المنطقة التي أنشأت فيها حساب التخزين الخاص بك. للمزيد من المعلومات، راجع ⁧⁩النسخ المتماثل لـ Azure Storage⁧
مستوى الدخول Hot يشير الوصول السريع إلى أن العناصر الموجودة في حساب التخزين سيتم الوصول إليها بشكل متكرر.

ثم انقر فوق ⁧⁩مراجعة + إنشاء Review + create⁧⁩ لإنشاء حساب تخزين. كما فعلت عند إنشاء حساب Genomics الخاص بك، يمكنك تحديد ⁧⁩Notifications⁧⁩ في شريط القائمة العلوي لمراقبة عملية النشر.

تحميل بيانات الإدخال إلى حساب التخزين الخاص بك

تتوقع خدمة Microsoft Genomics قراءة النهاية المقترنة (ملفات fastq أو bam) كملفات إدخال. يمكنك اختيار إما تحميل البيانات الخاصة بك، أو الاستكشاف باستخدام بيانات العينة المتاحة للجمهور المقدمة لك.

داخل حساب التخزين الخاص بك، تحتاج إلى إنشاء حاوية blob واحدة لبيانات الإدخال وحاوية blob أخرى لبيانات الإخراج. تحميل بيانات الإدخال في حاوية blob الخاصة بالإدخال. يمكن استخدام أدوات مختلفة للقيام بذلك، بما في ذلك ⁧⁩Microsoft Azure Storage Explorer⁧⁩، أو ⁧⁩BlobPorter⁧⁩، أو ⁧⁩AzCopy⁧⁩.

تشغيل سير عمل من خلال خدمة Microsoft Genomics باستخدام عميل ⁧msgen⁩ Python

لتشغيل سير عمل من خلال خدمة Microsoft Genomics، قم بتحرير ملف ⁧⁩config.txt⁧⁩ لتحديد حاوية تخزين الإدخال والإخراج لبياناتك. افتح ملف ⁧⁩config.txt⁧⁩ الذي قمت بتنزيله من حساب Genomics الخاص بك. الأقسام التي تحتاج إلى تحديدها هي مفتاح الاشتراك والعناصر الستة في الأسفل واسم حساب التخزين والمفتاح واسم الحاوية لكل من الإدخال والإخراج. يمكنك العثور على هذه المعلومات عن طريق التنقل في مدخل Microsoft Azure إلى ⁧⁩مفاتيح الوصول ⁧⁩ لحساب التخزين الخاص بك، أو مباشرة من Azure Storage Explorer.

تكوين علم الجينوم

إذا كنت ترغب في تشغيل GATK4، فقم بتعيين المعلمة ⁧process_name⁩ إلى ⁧gatk4⁩.

بشكل افتراضي، مخرجات خدمة Genomics هي ملفات VCF. إذا كنت ترغب في أن تكون المخرجات gVCF بدلاً من مخرجات VCF (يعادل ⁧-emitRefConfidence⁩ في GATK 3.x و⁧emit-ref-confidence⁩ في GATK 4.x)، أضف المعلمة ⁧emit_ref_confidence⁩ إلى ⁧⁩config.txt⁧⁩ الخاص بك وقم بتعيينها إلى ⁧gvcf⁩، كما هو موضح في الشكل السابق. للتغيير مرة أخرى إلى إخراج VCF، إما بإزالتها من ملف ⁧⁩config.txt⁧⁩ أو قم بتعيين المعلمة ⁧emit_ref_confidence⁩ إلى ⁧none⁩.

bgzip⁩ هي أداة تضغط على ملف vcf أو gvcf، وتقوم ⁧tabix⁩ بإنشاء فهرس للملف المضغوط. بشكل افتراضي، تقوم خدمة Genomics بتشغيل ⁧bgzip⁩ التي يتبعها ⁧tabix⁩ في إخراج ".g.vcf" ولكن لا تعمل هذه الأدوات بشكل افتراضي لإخراج ".vcf". عند التشغيل، تنتج الخدمة ملفات ".gz" (إخراج bgzip) و".tbi" (إخراج Tabix). الوسيطة هي أدوات منطقية، والتي تم ضبطها على false بشكل افتراضي لإخراج ".vcf"، وعلى true بشكل افتراضي لإخراج ".g.vcf". للاستخدام في سطر الأوامر، حدد ⁧-bz⁩ أو ⁧--bgzip-output⁩ كـ⁧true⁩ (تشغيل bgzip وtabix) أو ⁧false⁩. لاستخدام هذه الوسيطة في ملف ⁧⁩config.txt⁧⁩، أضف ⁧bgzip_output: true⁩ أو ⁧bgzip_output: false⁩ إلى الملف.

إرسال سير العمل إلى خدمة Microsoft Genomics باستخدام عميل ⁧msgen⁩ Python

استخدم عميل Microsoft Genomics Python لإرسال سير العمل الخاص بك مع الأمر التالي:

msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]

يمكنك عرض حالة سير العمل باستخدام الأمر التالي:

msgen list -f c:\temp\config.txt 

بمجرد اكتمال سير العمل، يمكنك عرض ملفات الإخراج في حساب Azure storage في حاوية الإخراج التي قمت بتكوينها.

الخطوات التالية

في هذه المقالة، قمت بتحميل عينة بيانات إدخال إلى Azure storage وقمت بإرسال سير عمل لخدمة Microsoft Genomics من خلال عميل ⁧msgen⁩ Python. لمعرفة المزيد حول أنواع ملفات الإدخال الأخرى التي يمكن استخدامها مع خدمة Microsoft Genomics، راجع الصفحات التالية: ⁧⁩ FASTQ المقترنة ⁧⁩⁧ | ⁩⁧⁩BAM⁧⁩⁧ | ⁩⁧⁩ملفات FASTQ أو BAM متعددة⁧⁩.