التشغيل السريع: تشغيل سير عمل باستخدام خدمة Microsoft Genomics
في هذا التشغيل السريع تقوم بتحميل بيانات الإدخال إلى حساب Azure Blob storage وتشغيل سير عمل من خلال خدمة Microsoft Genomics باستخدام عميل Python Genomics. Microsoft Genomics هي خدمة قابلة لتغيير الحجم وآمنة للتحليل الثانوي التي يمكن أن تعالج بسرعة الجينوم، بدءاً من عمليات القراءة البسيطة وإنتاج قراءات محاذاة ومكالمات المتغيرة.
المتطلبات الأساسية
- حساب Azure باشتراك نشط. أنشئ حسابًا مجانًا.
- Python 2.7.12+، مع تثبيت
pip
، وpython
في مسار النظام الخاص بك. عميل Microsoft Genomics غير متوافق مع Python 3.
إعداد: إنشاء حساب Microsoft Genomics في مدخل Microsoft Azure
لإنشاء حساب Microsoft Genomics، انتقل لـ Create a Genomics account في مدخل Microsoft Azure. إذا لم يكن لديك اشتراك Azure بعد، فقم بإنشاء واحد قبل إنشاء حساب Microsoft Genomics.
تكوين حساب Genomics خاص بك مع المعلومات التالية، كما هو موضح في الصورة السابقة.
الإعداد | القيمة المقترحة | وصف الحقل |
---|---|---|
الاشتراك | اسم الاشتراك الخاص بك | هذه هي وحدة الفوترة لخدماتك Azure - للمزيد من المعلومات حول اشتراكك، راجع الاشتراكات |
مجموعة الموارد | MyResourceGroup | تسمح لك مجموعات الموارد بتجميع موارد Azure متعددة (حساب تخزين وحساب جينوم وما إلى ذلك) في مجموعة واحدة لتبسيط الإدارة. لمزيد من المعلومات، راجع مجموعات الموارد. للحصول على أسماء مجموعات موارد صالحة، راجع قواعد التسمية |
اسم الحساب | MyGenomicsAccount | اختر معرف حساب مميزاً. لأسماء صالحة، راجع قواعد التسمية |
الموقع | منطقة غرب الولايات المتحدة الأمريكية 2 | تتوفر الخدمة في غرب الولايات المتحدة 2 وأوروبا الغربية وجنوب شرق آسيا |
يمكنك تحديد Notifications في شريط القائمة العلوي لمراقبة عملية النشر.
لمزيد من المعلومات حول Microsoft Genomics، راجع ما هو Microsoft Genomics؟
إعداد: تثبيت عميل Microsoft Genomics Python
تحتاج إلى تثبيت كل من Python وعميل Microsoft Genomics Python msgen
في بيئتك المحلية.
تثبيت Python
عميل Microsoft Genomics Python متوافق مع Python 2.7.12 أو إصدار الأحدث 2.7.xx. 2.7.14 هو الإصدار المقترح. يمكنك العثور على التنزيل هنا.
هام
Python 3.x غير متوافق مع Python 2.7.xx. msgen
هو تطبيق Python 2.7. عند تشغيل msgen
، تأكد من أن بيئة Python النشطة تستخدم إصدار Python 2.7.xx. قد تواجهك أخطاء عند محاولة استخدام msgen
مع إصدار Python 3.x.
تثبيت عميل Microsoft Genomics Python msgen
استخدم Python pip
لتثبيت عميل Microsoft Genomics Pythonmsgen
. تفترض الإرشادات التالية أن Python2.x موجود بالفعل في مسار النظام الخاص بك. إذا كان لديك مشكلات بأن تثبيت pip
غير معروف، فأنت بحاجة إلى إضافة Python ومجلد نصوص فرعي إلى مسار النظام الخاص بك.
pip install --upgrade --no-deps msgen
pip install msgen
إذا كنت لا ترغب في تثبيت msgen
كحزم ثنائية على مستوى النظام وتعديل حزم Python على مستوى النظام، استخدم علامة –-user
مع pip
.
عند استخدام التثبيت المستند إلى الحزمة أو setup.py، يتم تثبيت كافة الحزم الضرورية المطلوبة.
اختبار عميل msgen
Python
لاختبار عميل Microsoft Genomics، قم بتنزيل ملف التكوين من حساب Genomics الخاص بك. في مدخل Microsoft Azure، انتقل إلى حساب Genomics الخاص بك عن طريق تحديد All services في الجزء العلوي الأيسر، ثم ابحث عن حسابات Genomics واحفظها.
حدد حساب Genomics الذي قمت بعمله للتو، انتقل إلى Access Keys، وقم بتنزيل ملف التكوين.
اختبار عميل Microsoft Genomics Python يعمل مع الأمر التالي
msgen list -f "<full path where you saved the config file>"
إنشاء حساب Microsoft Azure Storage
تتوقع خدمة Microsoft Genomics أن يتم تخزين المدخلات ككائنات ثنائية كبيرة الحجم للكتلة في حساب Azure storage. كما أنها تكتب ملفات الإخراج ككائنات ثنائية كبيرة الحجم للكتلة إلى حاوية مستخدم محدد في حساب Azure storage. يمكن أن تتواجد المدخلات والمخرجات في حسابات تخزين مختلفة. إذا كان لديك بالفعل بياناتك في حساب Azure storage، فلن تحتاج إلا إلى التأكد من أنها موجودة في نفس موقع كحساب Genomics الخاص بك. وإلا، يتم تكبد رسوم الخروج عند تشغيل خدمة Microsoft Genomics. إذا لم يكن لديك حساب تخزين Azure بعد، فأنت بحاجة إلى إنشاء حساب وتحميل بياناتك. يمكنك العثور على مزيد من المعلومات حول حسابات Azure storage هنا، بما في ذلك ما هو حساب التخزين وما هي الخدمات التي يوفرها. لإنشاء حساب Azure storage، انتقل إلى إنشاء حساب تخزين في مدخل Microsoft Azure.
قم بتكوين حساب التخزين الخاص بك باستخدام المعلومات التالية، كما هو موضح في الصورة السابقة. استخدم معظم الخيارات القياسية لحساب تخزين، مع تحديد أن الحساب هو BlobStorage فقط، وليس غرضاً عاماً. يمكن أن يكون مخزن البيانات الثنائية الكبيرة أسرع بمرتين إلى 5 مرات للتنزيل والتحميل. يُوصى بنموذج النشر الافتراضي، Azure Resource Manager.
الإعداد | القيمة المقترحة | وصف الحقل |
---|---|---|
الاشتراك | اشتراكك في Azure | للحصول على تفاصيل حول اشتراكك، راجع الاشتراكات |
مجموعة الموارد | MyResourceGroup | يمكنك تحديد نفس مجموعة الموارد مثل حساب Genomics الخاص بك. للحصول على أسماء مجموعات موارد صالحة، راجع قواعد التسمية |
اسم حساب التخزين | MyStorageAccount | اختر معرف حساب مميزاً. لأسماء صالحة، راجع قواعد التسمية |
الموقع | منطقة غرب الولايات المتحدة الأمريكية 2 | استخدم نفس الموقع كموقع حساب Genomics الخاص بك، لتقليل رسوم الخروج، وتقليل زمن الانتقال. |
الأداء | قياسي | القيمة الافتراضية هي القياسية. لمزيد من التفاصيل حول حسابات التخزين القياسية والمتميزة، راجع مقدمة عن Microsoft Azure Storage |
نوع الحساب | BlobStorage | يمكن أن يكون مخزن البيانات الثنائية الكبيرة أسرع بمرتين إلى 5 مرات من الغرض العام للتنزيل والتحميل. |
النسخ المتماثل | التخزين المتكرر محلياً | تقوم سعة التخزين المكررة محلياً بنسخ بياناتك نسخاً متماثلاً داخل مركز البيانات في المنطقة التي أنشأت فيها حساب التخزين الخاص بك. للمزيد من المعلومات، راجع النسخ المتماثل لـ Azure Storage |
مستوى الدخول | Hot | يشير الوصول السريع إلى أن العناصر الموجودة في حساب التخزين سيتم الوصول إليها بشكل متكرر. |
ثم انقر فوق مراجعة + إنشاء Review + create لإنشاء حساب تخزين. كما فعلت عند إنشاء حساب Genomics الخاص بك، يمكنك تحديد Notifications في شريط القائمة العلوي لمراقبة عملية النشر.
تحميل بيانات الإدخال إلى حساب التخزين الخاص بك
تتوقع خدمة Microsoft Genomics قراءة النهاية المقترنة (ملفات fastq أو bam) كملفات إدخال. يمكنك اختيار إما تحميل البيانات الخاصة بك، أو الاستكشاف باستخدام بيانات العينة المتاحة للجمهور المقدمة لك.
داخل حساب التخزين الخاص بك، تحتاج إلى إنشاء حاوية blob واحدة لبيانات الإدخال وحاوية blob أخرى لبيانات الإخراج. تحميل بيانات الإدخال في حاوية blob الخاصة بالإدخال. يمكن استخدام أدوات مختلفة للقيام بذلك، بما في ذلك Microsoft Azure Storage Explorer، أو BlobPorter، أو AzCopy.
تشغيل سير عمل من خلال خدمة Microsoft Genomics باستخدام عميل msgen
Python
لتشغيل سير عمل من خلال خدمة Microsoft Genomics، قم بتحرير ملف config.txt لتحديد حاوية تخزين الإدخال والإخراج لبياناتك. افتح ملف config.txt الذي قمت بتنزيله من حساب Genomics الخاص بك. الأقسام التي تحتاج إلى تحديدها هي مفتاح الاشتراك والعناصر الستة في الأسفل واسم حساب التخزين والمفتاح واسم الحاوية لكل من الإدخال والإخراج. يمكنك العثور على هذه المعلومات عن طريق التنقل في مدخل Microsoft Azure إلى مفاتيح الوصول لحساب التخزين الخاص بك، أو مباشرة من Azure Storage Explorer.
إذا كنت ترغب في تشغيل GATK4، فقم بتعيين المعلمة process_name
إلى gatk4
.
بشكل افتراضي، مخرجات خدمة Genomics هي ملفات VCF. إذا كنت ترغب في أن تكون المخرجات gVCF بدلاً من مخرجات VCF (يعادل -emitRefConfidence
في GATK 3.x وemit-ref-confidence
في GATK 4.x)، أضف المعلمة emit_ref_confidence
إلى config.txt الخاص بك وقم بتعيينها إلى gvcf
، كما هو موضح في الشكل السابق. للتغيير مرة أخرى إلى إخراج VCF، إما بإزالتها من ملف config.txt أو قم بتعيين المعلمة emit_ref_confidence
إلى none
.
bgzip
هي أداة تضغط على ملف vcf أو gvcf، وتقوم tabix
بإنشاء فهرس للملف المضغوط. بشكل افتراضي، تقوم خدمة Genomics بتشغيل bgzip
التي يتبعها tabix
في إخراج ".g.vcf" ولكن لا تعمل هذه الأدوات بشكل افتراضي لإخراج ".vcf". عند التشغيل، تنتج الخدمة ملفات ".gz" (إخراج bgzip) و".tbi" (إخراج Tabix). الوسيطة هي أدوات منطقية، والتي تم ضبطها على false بشكل افتراضي لإخراج ".vcf"، وعلى true بشكل افتراضي لإخراج ".g.vcf". للاستخدام في سطر الأوامر، حدد -bz
أو --bgzip-output
كـtrue
(تشغيل bgzip وtabix) أو false
. لاستخدام هذه الوسيطة في ملف config.txt، أضف bgzip_output: true
أو bgzip_output: false
إلى الملف.
إرسال سير العمل إلى خدمة Microsoft Genomics باستخدام عميل msgen
Python
استخدم عميل Microsoft Genomics Python لإرسال سير العمل الخاص بك مع الأمر التالي:
msgen submit -f [full path to your config file] -b1 [name of your first paired end read] -b2 [name of your second paired end read]
يمكنك عرض حالة سير العمل باستخدام الأمر التالي:
msgen list -f c:\temp\config.txt
بمجرد اكتمال سير العمل، يمكنك عرض ملفات الإخراج في حساب Azure storage في حاوية الإخراج التي قمت بتكوينها.
الخطوات التالية
في هذه المقالة، قمت بتحميل عينة بيانات إدخال إلى Azure storage وقمت بإرسال سير عمل لخدمة Microsoft Genomics من خلال عميل msgen
Python. لمعرفة المزيد حول أنواع ملفات الإدخال الأخرى التي يمكن استخدامها مع خدمة Microsoft Genomics، راجع الصفحات التالية: FASTQ المقترنة | BAM | ملفات FASTQ أو BAM متعددة.