إرسال سير عمل باستخدام مدخلات متعددة من نفس العينة

توضح هذه المقالة كيفية إرسال سير عمل إلى خدمة Microsoft Genomics إذا كان ملف الإدخال الخاص بك ملفات FASTQ أو BAM متعددة قادمة من نفس العينة. على سبيل المثال، إذا قمت بتشغيل نفس العينة في ممرات متعددة على جهاز التسلسل، يمكن لجهاز التسلسل إخراج زوج من ملفات FASTQ لكل مسار. بدلا من تسلسل ملفات FASTQ هذه قبل المحاذاة واستدعاء المتغيرات ، يمكنك إرسال جميع هذه المدخلات مباشرة إلى msgen العميل. سيكون الإخراج من العميل عبارة عن msgenمجموعة واحدة من الملفات ، بما في ذلك ملف .bam أو .bai .vcf.

ومع ذلك ، ضع في اعتبارك أنه لا يمكنك خلط ملفات FASTQ و BAM في نفس الإرسال. علاوة على ذلك ، لا يمكنك إرسال ملفات FASTQ أو BAM متعددة من عدة أفراد.

تفترض هذه المقالة أنك قمت بالفعل بتثبيت العميل وتشغيله، وأنك على دراية بكيفية msgen استخدام Azure Storage. إذا قمت بإرسال سير عمل بنجاح باستخدام نموذج البيانات المتوفرة، فأنت جاهز لمتابعة هذه المقالة.

ملفات BAM متعددة

Upload ملفات الإدخال إلى وحدة تخزين Azure

لنفترض أن لديك ملفات BAM متعددة كإدخال و reads.bam و additional_reads.bam و yet_more_reads.bam ، وقمت بتحميلها إلى حساب التخزين الخاص بك myaccount في Azure. لديك عنوان URL لواجهة برمجة التطبيقات ومفتاح الوصول الخاص بك. تريد الحصول على مخرجات في https:// myaccount.blob.core.windows.net/outputs.

أرسل وظيفتك إلى msgen العميل

يمكنك إرسال ملفات BAM متعددة عن طريق تمرير كافة أسمائها إلى الوسيطة --input-blob-name-1. لاحظ أن جميع الملفات يجب أن تأتي من نفس العينة ، ولكن ترتيبها ليس مهما. يفصل القسم التالي أمثلة عمليات الإرسال من سطر أوامر في Windows وفي يونكس واستخدام ملف تكوين. تتم إضافة فواصل الأسطر للوضوح:

للنافذة:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

لنظام يونكس

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads.bam additional_reads.bam yet_more_reads.bam \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

إذا كنت تفضل استخدام ملف تكوين ، فإليك ما سيحتوي عليه:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads.bam additional_reads.bam yet_more_reads.bam
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

أرسل الملف config.txt مع هذا الاستدعاء: msgen submit -f config.txt

ملفات FASTQ متعددة مقترنة

Upload ملفات الإدخال إلى وحدة تخزين Azure

لنفترض أن لديك العديد من ملفات FASTQ المقترنة كإدخال ، reads_1.fq.gz و reads_2.fq.gz و additional_reads_1.fq.gz و additional_reads_2.fq.gz و yet_more_reads_1.fq .gz وyet_more_reads_2.fq.gz. لقد قمت بتحميلها إلى حساب التخزين الخاص بك myaccount في Azure ولديك عنوان URL لواجهة برمجة التطبيقات ومفتاح الوصول الخاص بك. تريد الحصول على مخرجات في https:// myaccount.blob.core.windows.net/outputs.

أرسل وظيفتك إلى msgen العميل

لا تحتاج ملفات FASTQ المقترنة إلى أن تأتي من نفس العينة فحسب ، بل تحتاج أيضا إلى معالجتها معا. ترتيب أسماء الملفات مهم عندما يتم تمريرها كوسيطات إلى --input-blob-name-1 و --input-blob-name-2.

يفصل القسم التالي أمثلة عمليات الإرسال من سطر أوامر في Windows وفي يونكس واستخدام ملف تكوين. تتم إضافة فواصل الأسطر للوضوح:

للنافذة:

msgen submit ^
  --api-url-base <Genomics API URL> ^
  --access-key <Genomics access key> ^
  --process-args R=b37m1 ^
  --input-storage-account-name myaccount ^
  --input-storage-account-key <storage access key to "myaccount"> ^
  --input-storage-account-container inputs ^
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz ^
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz ^
  --output-storage-account-name myaccount ^
  --output-storage-account-key <storage access key to "myaccount"> ^
  --output-storage-account-container outputs

بالنسبة لنظام يونكس:

msgen submit \
  --api-url-base <Genomics API URL> \
  --access-key <Genomics access key> \
  --process-args R=b37m1 \
  --input-storage-account-name myaccount \
  --input-storage-account-key <storage access key to "myaccount"> \
  --input-storage-account-container inputs \
  --input-blob-name-1 reads_1.fastq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz \
  --input-blob-name-2 reads_2.fastq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz \
  --output-storage-account-name myaccount \
  --output-storage-account-key <storage access key to "myaccount"> \
  --output-storage-account-container outputs

إذا كنت تفضل استخدام ملف تكوين ، فإليك ما سيحتوي عليه:

api_url_base:                     <Genomics API URL>
access_key:                       <Genomics access key>
process_args:                     R=b37m1
input_storage_account_name:       myaccount
input_storage_account_key:        <storage access key to "myaccount">
input_storage_account_container:  inputs
input_blob_name_1:                reads_1.fq.gz additional_reads_1.fastq.gz yet_more_reads_1.fastq.gz
input_blob_name_2:                reads_2.fq.gz additional_reads_2.fastq.gz yet_more_reads_2.fastq.gz
output_storage_account_name:      myaccount
output_storage_account_key:       <storage access key to "myaccount">
output_storage_account_container: outputs

أرسل الملف config.txt مع هذا الاستدعاء: msgen submit -f config.txt

الخطوات التالية

في هذه المقالة، قمت بتحميل ملفات BAM متعددة أو إقران ملفات FASTQ في Azure Storage وإرسال سير عمل إلى خدمة Microsoft Genomics من خلال msgen عميل Python. لمزيد من المعلومات حول إرسال سير العمل والأوامر الأخرى التي يمكنك استخدامها مع خدمة Microsoft Genomics، راجع الأسئلة المتداولة.