حمّل البيانات في Azure Data Lake Storage Gen2 باستخدام مصنع بيانات Azure

ينطبق على: Azure Data Factory Azure Synapse Analytics

Azure Data Lake Storage Gen2 هو مجموعة من القدرات المخصصة لعمليات تحليل البيانات الضخمة على Azure Blob Storage. فهي تسمح لك بالتداخل مع بياناتك باستخدام كل من نظام الملفات ونماذج تخزين الكائن.

Azure Data Factory (ADF) هي خدمة تكامل بيانات مستندة إلى السحابة ومدارة بالكامل. يمكنك استخدام الخدمة لملء البحيرة ببيانات من مجموعة غنية من متاجر بيانات محلية قائمة على السحابة وتوفير الوقت عند إنشاء حلول التحليلات. للحصول على قائمة مفصلة من الموصلات المدعومة راجع جدول مخازن البيانات المدعومة.

يقدم Azure Data Factory حلا واسع النطاق لحركة البيانات المدارة. نظرا للهندسة واسعة النطاق لـ ADF، فيمكنه استيعاب البيانات بمعدل نقل عال. للحصول على التفاصيل، راجع أداء نشاط النسخ.

توضح هذه المقالة كيفية استخدام أداة Data Factory Copy Data لتحميل البيانات من خدمة Amazon Web Services S3 في Azure Data Lake Storage Gen2. يمكنك اتباع خطوات مماثلة لنسخ البيانات من أنواع أخرى من مخازن البيانات.

تلميح

لنسخ البيانات منAzure Data Lake Storage Gen2 في Gens2، أشر إلى هذه المعاينة المحددة.

المتطلبات الأساسية

  • اشتراك Azure: إذا لم يكن لديك اشتراك Azure، فأنشئ حساباً مجانياً قبل أن تبدأ.
  • حساب تخزين Azure مع Data Lake Storage Gen2 ممكنة: إذا لم يكن لديك حساب تخزين، أنشيء حسابًا.
  • حساب AWS مع مستودع S3 الذي يحتوي على بيانات: توضح هذه المقالة كيفية نسخ البيانات من Amazon S3. يمكنك استخدام مخازن البيانات الأخرى باتباع خطوات مماثلة.

إنشاء مصدرًا للبيانات

  1. في القائمة اليسرى، حدد Create a resource>Integration>Data Factory:

    Data Factory selection in the "New" pane

  2. في صفحة New data factory وفر قيمًا في الحقول التالية:

    • الاسم: أدخل اسما فريدا عالميا لمصنع بيانات Azure. إذا تلقيت الخطأ "اسم مصنع البيانات YourDataFactoryName غير متوفر"، أدخل اسما مختلفا لمصنع البيانات. على سبيل المثال، يمكنك استخدام الاسم yournameADFTutorialDataFactory. حاول إنشاء Data Factory مرة أخرى. للحصول على قواعد التسمية لData Factory artifacts، راجع قواعد تسمية Data Factory.
    • اشتراك: حدد اشتراك Azure الخاص بك لإنشاء Data Factory.
    • مجموعة الموارد: حدد مجموعة موارد موجودة من القائمة المنسدلة، أو حدد الخيار Create new وأدخل اسم مجموعة الموارد. للتعرف على مجموعات الموارد، راجع استخدام مجموعات الموارد لإدارة موارد Azure.
    • الإصدار: حدد V2.
    • الموقع: حدد موقع Data Factory. يتم عرض المواقع المعتمدة فقط في القائمة المنسدلة. يمكن أن تكون مخازن البيانات المستخدمة من قبل مصنع البيانات في مواقع ومناطق أخرى.
  3. حدد "Create".

  4. بعد اكتمال الإنشاء، انتقل إلى Data Factory الخاص بك. تشاهد الصفحة الرئيسية Data Factory كما هو موضح في الصورة التالية:

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

    حدد "Open" من لوحة "Open Azure Data Factory Studio" لبدء تطبيق Data Integration Application في علامة تبويب منفصلة.

تحميل البيانات في Azure Data Lake Storage Gen2

  1. في صفحة Azure Data Factory الرئيسية، حدد تجانب Ingest لبدء تشغيل أداة Copy Data.

  2. في صفحة Properties، اختر Built-in copy task منTask type، واختر Run once nowمنTask cadence or task scheduleثم حدد Next.

    Properties page

  3. في صفحة Source data store، أكمل الخطوات التالية:

    1. حدد + New connection. حدد Amazon S3 من معرض الموصل، وحدد Continue.

      Source data store s3 page

    2. في صفحة New connection (Amazon S3، نفذ الخطوات التالية:

      1. حدد قيمة معرف مفتاح الوصول.
      2. حدد قيمة معرف الوصول إلى البيانات السرية.
      3. انقر فوق Test connection للتحقق من صحة الإعدادات، ثم حدد Create.

      Specify Amazon S3 account

    3. في الصفحة Source data store، تأكد من تحديد اتصال SQL Server الذي أُنشيء حديثًا في كتلة الاتصال.

    4. في قسم File or folder استعرض للوصول إلى المجلد والملف الذي تريد النسخ عليه. حدد المجلد/الملف، ثم حدد OK.

    5. حدد سلوك النسخ عن طريق التحقق من خياري النسخ Recursively و Binary. حدد "Next".

    Screenshot that shows the source data store page.

  4. في صفحة Destination data store، أكمل الخطوات التالية:

    1. حدد + New connection، ثم حدد Azure Data Lake Storage Gen2، ثم حددContinue.

      Destination data store page

    2. في صفحة New connection (Azure Data Lake Storage Gen2) حدد حساب Data Lake Storage Gen2 الممكن من القائمة المنسدلة "Storage account name"، وحدد Create لإنشاء الاتصال.

      Specify Azure Data Lake Storage Gen2 account

    3. في صفحة Destination data store حدد الاتصال الذي أُنشيء حديثا في كتلة الاتصال. ثم ضمن Folder path، أدخل copyfroms3 كاسم مجلد الإخراج، وحدد Next. سينشيء ADF نظام ملفات ADLS Gen2 المطابق والمجلدات الفرعية أثناء النسخ إذا لم تكن موجودة.

      Screenshot that shows the destination data store page.

  5. في صفحة Settings حدد CopyFromAmazonS3ToADLS لحقل Task name وحدد Next لاستخدام الإعدادات الافتراضية.

    Settings page

  6. في صفحة Summary، راجع كافة الإعدادات، وحدد Next.

    Summary page

  7. في صفحة Deployment، حدد Monitor لمراقبة المسار الذي أنشأته (مهمة).

  8. عند اكتمال تشغيل المسار بنجاح، تشاهد المسار المشغل بواسطة مشغل يدوي. يمكنك استخدام الروابط ضمن العمود PIPELINE NAME لعرض تفاصيل النشاط وإعادة تشغيل "المسار".

    Monitor pipeline runs

  9. لمشاهدة تشغيل النشاط المقترنة بتشغيل المسار، حدد الرابط CopyPipelineضمن عمود PIPELINE NAME. للحصول على تفاصيل حول عملية النسخ، حدد رابط Details link (eyeglasses icon) under theActivity name. يمكنك مراقبة تفاصيل مثل حجم البيانات المنسوخة من المصدر إلى المتلقي، وسرعة نقل البيانات، وخطوات التنفيذ مع المدة المقابلة، والتكوين المستخدم.

    Monitor activity runs

    Monitor activity run details

  10. لإعادة تنشيط طريقة العرض، حدد Refresh. حدد All pipeline runs في الأعلى للعودة إلى طريقة عرض "تشغيل المسار".

  11. تحقق من نسخ البيانات إلى حساب Data Lake Storage Gen2.

الخطوات التالية