نقل البيانات باستخدام نشاط النسخ

ملاحظة

يطبق هذا البند على الإصدار 1 من Data Factory. إذا كنت تستخدم الإصدار الحالي من خدمة Data Factory، فراجع نشاط النسخ في V2.

نظرة عامة

في Azure Data Factory، يمكنك استخدام نشاط النسخ لنسخ البيانات بين مخازن البيانات الداخلية والسحابة. بعد نسخ البيانات، يمكن إجراء المزيد من التحويلات عليها وتحليلها. يمكنك أيضاً استخدام نشاط النسخ لنشر نتائج التحويل والتحليل للمعلومات المهنية واستهلاك التطبيق.

Role of Copy Activity

يتم تشغيل نشاط النسخ بواسطة خدمة آمنة وموثوقة وقابلة للتغيير ومتاحة عالمياً. تستعرض هذه المقالة تفاصيل حول نقل البيانات في Data Factory ونشاط النسخ.

في البداية، لنلق نظرة على كيفية حدوث ترحيل البيانات بين اثنين من مخازن بيانات السحابة وبين مخزن بيانات السحابة ومخزن بيانات داخلي.

نسخ البيانات بين اثنين من مخازن بيانات السحابة

عندما يكون كل من مخازن البيانات المصدر والمتلقي في السحابة، يمر "نشاط النسخ" بالمراحل التالية لنسخ البيانات من المصدر إلى المتلقي. الخدمة التي تعمل على تشغيل نشاط النسخ:

  1. يقرأ البيانات من مخزن البيانات المصدر.
  2. يقوم بإنشاء التسلسل/إلغاء التسلسل والضغط/إلغاء الضغط وتعيين العمود وتحويل النوع. يجري هذه العمليات بناءً على تكوينات مجموعة بيانات الإدخال ومجموعة بيانات الإخراج ونشاط النسخ.
  3. يكتب البيانات إلى مخزن البيانات الوجهة.

تختار الخدمة تلقائياً المنطقة المثلى لإجراء نقل البيانات. عادة ما تكون هذه المنطقة هي الأقرب إلى مخزن بيانات المتلقي.

Cloud-to-cloud copy

نسخ البيانات بين مخزن بيانات داخلي ومخزن بيانات السحابة

لنقل البيانات بأمان بين مخزن بيانات داخلي ومخزن بيانات السحابة، قم بتثبيت Data Management Gateway على جهازك المحلي. تعد Data Management Gateway عاملاً يتيح نقل البيانات المختلطة ومعالجتها. يمكنك تثبيتها على نفس الجهاز مثل مخزن البيانات نفسه، أو على جهاز منفصل يمكنه الوصول إلى مخزن البيانات.

في هذا السيناريو، تقوم Data Management Gateway بإنشاء التسلسل / إلغاء التسلسل والضغط / إلغاء الضغط وتعيين العمود وتحويل النوع. لا تتدفق البيانات عبر خدمة Azure Data Factory. بدلاً من ذلك، تقوم Data Management Gateway بكتابة البيانات مباشرة إلى المخزن الوجهة.

On-premises-to-cloud copy

راجع نقل البيانات بين مخازن البيانات الداخلية والسحابة للحصول على مقدمة ومعاينة. راجع Data Management Gateway للحصول على معلومات مفصلة حول هذا العامل.

كما يمكنك نقل البيانات من/إلى مخازن البيانات المدعومة التي تتم استضافتها على أجهزة Azure IaaS الظاهرية باستخدام Data Management Gateway. في هذه الحالة، يمكنك تثبيت Data Management Gateway على نفس الجهاز الظاهري مثل مخزن البيانات نفسه، أو على جهاز ظاهري منفصل يمكنه الوصول إلى مخزن البيانات.

مخازن البيانات المدعومة وتنسيقاتها

يقوم نشاط النسخ بنسخ البيانات من Data Factory مدعوم إلى مخزن بيانات مخزن معتمد. يعتمد مصنع البيانات مخازن البيانات التالية. يمكن كتابة البيانات من أي مصدر إلى أي متلقي. انقر فوق مخزن بيانات لمعرفة كيفية نسخ البيانات من وإلى ذلك المتجر.

ملاحظة

إذا كنت بحاجة إلى نقل البيانات من/إلى مخزن بيانات لا يدعم نشاط النسخ، فاستخدم نشاطاً مخصصاً في Data Factory بمنطقك الخاص لنسخ/نقل البيانات. لاستعراض تفاصيل حول إنشاء نشاط مخصص واستخدامه، راجع استخدام الأنشطة المخصصة في البنية الأساسية لبرنامج ربط العمليات التجاريةAzure Data Factory.

الفئة مخزن البيانات معتمد كمصدر معتمدة كمتلقي
Azure موقع تخزين Azure Blob
  Azure Cosmos DB (SQL API)
  Azure Data Lake Storage Gen1
  قاعدة بيانات Azure SQL
  Azure Synapse Analytics
  مفهرس البحث المعرفي Azure
  موقع تخزين Azure Table
قواعد البيانات Amazon Redshift
  DB2*
  MySQL*
  *Oracle
  PostgreSQL*
  مستودع أعمال SAP*
  SAP HANA*
  SQL Server*
  Sybase*
  Teradata*
NoSQL Cassandra*
  MongoDB*
ملف Amazon S3
  نظام الملفات*
  FTP
  HDFS*
  SFTP
أخرى Generic HTTP
  Generic OData
  Generic ODBC*
  Salesforce
  جدول الويب (الجدول من HTML)

ملاحظة

يمكن أن تكون مخازن البيانات بـ * محلية أو على Azure IaaS، وتتطلب منك تثبيت Data Management Gateway على جهاز محلي أوAzure IaaS.

تنسيقات الملفات المعتمدة

يمكنك استخدام نشاط النسخ لنسخ الملفات كما هي بين مخزنين للبيانات مستندة إلى ملفات، ويمكنك تخطي قسم التنسيق في كل من تعريفات مجموعة بيانات الإدخال والإخراج. يتم نسخ البيانات بكفاءة دون أي تسلسل/إلغاء التسلسل.

يقرأ "نشاط النسخ" أيضاً من الملفات ويكتب إليها بتنسيقات محددة: النص وJSON وAvro وORC وParquet وبرنامج ضغط الوسائط وفكهاGZip وDeflate وBZip2 وZipDeflate مدعومة. راجع تنسيقات الملفات والضغط المدعومة بالتفاصيل.

على سبيل المثال، يمكنك القيام بأنشطة النسخ التالية:

  • انسخ البيانات في قاعدة بيانات SQL Server واكتبها فيAzure Data Lake Store بتنسيق ORC.
  • انسخ الملفات بتنسيق نصي (CSV) من نظام الملفات الداخلي واكتبها فيAzure Blob بتنسيق Avro.
  • انسخ الملفات المضغوطة من نظام الملفات الداخلي وقم بإلغاء الضغط ثم انتقل إلى Azure Data Lake Store.
  • انسخ البيانات بتنسيق GZip النصي المضغوط (CSV) من Azure Blob واكتبها في Azure SQL Database.

نقل البيانات المتاحة عالمياً

يُتاح Azure Data Factory فقط في مناطق غرب الولايات المتحدة وشرق الولايات المتحدة وشمال أوروبا. ومع ذلك، فإن الخدمة التي تُشّغل "نشاط النسخ" متاحة عالمياً في المناطق والمناطق الجغرافية التالية. يضمن تخطيط الشبكة المتاح عالمياً نقل بيانات فعال يتجنب عادةً التنقلات عبر المناطق. راجع الخدمات حسب المنطقة لمعرفة مدى توفر Data Factory ونقل البيانات في المنطقة.

نسخ البيانات بين مخازن بيانات السحابة

عندما يكون كل من مخازن بيانات المصدر والمتلقي في السحابة، يستخدم Data Factory خدمة التوزيع في المنطقة الأقرب إلى المتلقي في نفس المنطقة الجغرافية لنقل البيانات. راجع الجدول التالي للتعيين:

الموقع الجغرافي لمخازن البيانات الوجهة منطقة مخزن البيانات الوجهة المنطقة المستخدمة لنقل البيانات
الولايات المتحدة شرق الولايات المتحدة شرق الولايات المتحدة
  East US 2 East US 2
  وسط الولايات المتحدة وسط الولايات المتحدة
  North Central US North Central US
  جنوب وسط الولايات المتحدة جنوب وسط الولايات المتحدة
  غرب وسط الولايات المتحدة غرب وسط الولايات المتحدة
  غرب الولايات المتحدة غرب الولايات المتحدة
  منطقة غرب الولايات المتحدة الأمريكية 2 منطقة غرب الولايات المتحدة الأمريكية 2
كندا شرق كندا كندا الوسطى
  كندا الوسطى كندا الوسطى
البرازيل جنوب البرازيل جنوب البرازيل
أوروبا شمال أوروبا شمال أوروبا
  غرب أوروبا غرب أوروبا
المملكة المتحدة غرب المملكة المتحدة جنوب المملكة المتحدة
  جنوب المملكة المتحدة جنوب المملكة المتحدة
آسيا الباسيفيك جنوب شرق آسيا جنوب شرق آسيا
  شرق آسيا جنوب شرق آسيا
أستراليا شرق أستراليا شرق أستراليا
  جنوب شرق أستراليا جنوب شرق أستراليا
الهند وسط الهند وسط الهند
  West India وسط الهند
  جنوب الهند وسط الهند
اليابان شرق اليابان شرق اليابان
  غرب اليابان شرق اليابان
كوريا وسط كوريا وسط كوريا
  منطقة جنوب كوريا الجنوبية وسط كوريا

بدلاً من ذلك، يمكنك تحديد منطقة خدمة Data Factory التي سيتم استخدامها لإجراء النسخ بتحديد executionLocationالخاصية ضمن نشاط النسخtypeProperties. تم إدراج القيم المدعومة لهذه الخاصية في العمود المنطقة المستخدمة لنقل البيانات أعلاه. لاحظ أن بياناتك تمر عبر تلك المنطقة عبر السلك أثناء عملية النسخ. على سبيل المثال، لإجراء نسخ بين مخازن Azure في كوريا، يمكنك تحديد "executionLocation": "Japan East" لتوجيه المسار عبر منطقة اليابان (راجع نموذج JSON كمرجع).

ملاحظة

إذا كانت منطقة مخزن البيانات الوجهة ليست ضمن القائمة السابقة أو غير مرصودة، بشكل افتراضي يفشل نشاط النسخ بدلاً من المرور عبر منطقة بديلة، ما لم يتم تحديد executionLocation. سيتم توسيع نطاق قائمة المناطق المدعومة بمرور الوقت.

نسخ البيانات بين مخزن بيانات داخلي ومخزن بيانات السحابة

عند نسخ البيانات بين الأجهزة المحلية (أو أجهزة Azure الظاهرية / IaaS) ومخازن السحابة، تقوم Data Management Gateway بنقل البيانات على جهاز محلي أو جهاز افتراضي. لا تتدفق البيانات عبر الخدمة في السحابة، ما لم تستخدم إمكانية النسخ المرحلي. في هذه الحالة، تتدفق البيانات عبر تخزين Azure Blob المرحلي قبل كتابتها في مخزن بيانات المتلقي.

إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية باستخدام نشاط النسخ

يمكنك إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية باستخدام نشاط النسخ بطريقتين:

باستخدام معالج النسخ

يساعدك معالج نسخ Data Factory في إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية باستخدام نشاط النسخ. يسمح لك البنية الأساسية لبرنامج ربط العمليات التجارية هذا بنسخ البيانات من المصادر المدعومة إلى الوجهات دون كتابة تعريفات JSON للخدمات ومجموعات البيانات والبنية الأساسية لبرنامج ربط العمليات التجارية المرتبطة. راجع معالج نسخ Data Factory للحصول على تفاصيل حول المعالج.

باستخدام البرامج النصية JSON

يمكنك استخدام محرر Data Factory في Visual Studio أو Azure PowerShell لإنشاء تعريف JSON للبنية الأساسية لبرنامج ربط العمليات التجارية (باستخدام نشاط النسخ). بعد ذلك، يمكنك نشره لإنشاء البنية الأساسية لبرنامج ربط العمليات التجارية في Data Factory. راجع البرنامج التعليمي: استخدام نشاط النسخ في البنية الأساسية لبرنامج ربط العمليات التجارية Azure Data Factory للحصول على برنامج تعليمي يحتوي على إرشادات خطوة بخطوة.

تتوفر خصائص JSON (مثل الاسم والوصف وجداول الإدخال والإخراج والنُهج) لجميع أنواع الأنشطة. تختلف الخصائص المتاحة في قسم typeProperties من النشاط باختلاف نوع كل نشاط.

بالنسبة إلى "نشاط النسخ"، يختلف قسم typeProperties تبعاً لأنواع المصادر والمتلقي. انقر فوق مصدر/متلقي في قسم المصادر والمتلقي المدعومة للتعرف على خصائص النوع التي يدعمها نشاط النسخ لمخزن البيانات هذا.

فيما يلي نموذج تعريف JSON:

{
  "name": "ADFTutorialPipeline",
  "properties": {
    "description": "Copy data from Azure blob to Azure SQL table",
    "activities": [
      {
        "name": "CopyFromBlobToSQL",
        "type": "Copy",
        "inputs": [
          {
            "name": "InputBlobTable"
          }
        ],
        "outputs": [
          {
            "name": "OutputSQLTable"
          }
        ],
        "typeProperties": {
          "source": {
            "type": "BlobSource"
          },
          "sink": {
            "type": "SqlSink"
          },
          "executionLocation": "Japan East"          
        },
        "Policy": {
          "concurrency": 1,
          "executionPriorityOrder": "NewestFirst",
          "retry": 0,
          "timeout": "01:00:00"
        }
      }
    ],
    "start": "2016-07-12T00:00:00Z",
    "end": "2016-07-13T00:00:00Z"
  }
}

يحدد الجدول الزمني المحدد في مجموعة بيانات الإخراج وقت إجراء النشاط (على سبيل المثال: يومياً، والتكرار كـ يوم، والفاصل الزمني كـ 1). ينسخ النشاط البيانات من مجموعة بيانات الإدخال (المصدر) إلى مجموعة بيانات الإخراج (المتلقي).

يمكنك تحديد أكثر من مجموعة بيانات إدخال لنشاط النسخ. يتم استخدامها للتحقق من التبعيات قبل إجراء النشاط. ومع ذلك، يتم نسخ البيانات من مجموعة البيانات الأولى فقط إلى مجموعة البيانات الوجهة. للحصول على مزيد من المعلومات، راجع الجدولة والتنفيذ.

الأداء والضبط

راجع دليل أداء وضبط نشاط النسخ، الذي يصف العوامل الرئيسية التي تؤثر على أداء نقل البيانات (نشاط النسخ) في Azure Data Factory. كما يسرد الأداء الملحوظ أثناء الاختبار الداخلي ويناقش طرقاً مختلفة لتحسين أداء نشاط النسخ.

التسامح مع الخطأ

بشكل افتراضي، سيتوقف نشاط النسخ عن نسخ البيانات ويعيد الفشل عند مواجهة بيانات غير متوافقة بين المصدر والمتلقي؛ بينما يمكنك إنشاء تكوين صريح لتخطي الصفوف غير المتوافقة وتسجيلها ونسخ تلك البيانات المتوافقة فقط لإنجاح النسخ. راجع التسامح مع الخطأ في نشاط النسخ للحصول على مزيد من التفاصيل.

اعتبارات الأمان

راجع اعتبارات الأمان، التي تصف البنية الأساسية للأمان التي تستخدمها خدمات نقل البيانات في Azure Data Factory لتأمين بياناتك.

الجدولة والنسخ التسلسلي

راجع الجدولة والتنفيذ للحصول على معلومات مفصلة حول كيفية عمل الجدولة والتنفيذ في Data Factory. من الممكن إجراء عمليات نسخ متعددة واحدة تلو الأخرى بطريقة متسلسلة/مرتبة. راجع قسم النسخ بشكل تسلسلي.

نوع التحويلات

تضم مخازن البيانات المختلفة أنظمة مختلفة للنوع الأصلي. يجري "نشاط النسخ" تحويلات تلقائية للنوع من أنواع المصدر إلى أنواع المتلقي باستخدام النهج التالي المكون من خطوتين:

  1. التحويل من أنواع المصدر الأصلي إلى نوع .NET.
  2. تحويل من نوع .NET إلى نوع متلقي أصلي.

التعيين من نظام النوع الأصلي إلى نوع .NET لمخزن البيانات موجود في المقالة المعنية بمخزن البيانات. (انقر فوق الارتباط المحدد في جدول مخازن البيانات المدعومة). يمكنك استخدام هذه التعيينات لتحديد الأنواع المناسبة أثناء إنشاء الجداول الخاصة بك، بحيث يقوم "نشاط النسخ" بإجراء التحويلات الصحيحة.

الخطوات التالية