التشغيل السريع: تشغيل مهمة Spark على مساحة عمل Azure Databricks باستخدام مدخل Azure

في هذه البداية السريعة، يمكنك استخدام مدخل Azure لإنشاء مساحة عمل Azure Databricks مع مجموعة Apache Spark. يمكنك تشغيل مهمة على المجموعة واستخدام مخططات مخصصة لإنتاج تقارير في الوقت الفعلي من بيانات السلامة في سياتل.

المتطلبات الأساسية

  • اشتراك Azure - أنشئ اشتراكا مجانا. لا يمكن تنفيذ هذا البرنامج التعليمي باستخدام اشتراك Azure التجريبي المجاني. إذا كان لديك حساب مجاني، فانتقل إلى ملفك الشخصي وقم بتغيير اشتراكك للدفع أولا بأول. لمزيد من المعلومات، راجع حساب Azure المجاني. بعد ذلك، قم بإزالة حد الإنفاق، واطلب زيادة الحصة النسبية لوحدات vCPUs في منطقتك. عند إنشاء مساحة عمل Azure Databricks، يمكنك تحديد طبقة التسعير التجريبية (Premium - وحدات DBUs المجانية لمدة 14 يوما) لمنح مساحة العمل إمكانية الوصول إلى وحدات DBUs Premium Azure Databricks مجانا لمدة 14 يوما.

  • تسجيل الدخول إلى ⁧⁩مدخل Azure⁧⁩.

ملاحظة

إذا كنت ترغب في إنشاء مساحة عمل Azure Databricks في Azure Commercial Cloud التي تحمل شهادات الامتثال للحكومة الأمريكية مثل FedRAMP High، فيرجى التواصل مع ممثل Microsoft أو Databricks للوصول إلى هذه التجربة.

إنشاء مساحة عمل Azure Databricks

في هذا القسم، يمكنك إنشاء مساحة عمل Azure Databricks باستخدام مدخل Azure أو Azure CLI.

  1. في مدخل Azure، حدد إنشاءموردAnalyticsAzureDatabricks.

    Databricks on Azure portal

  2. في خدمة Azure Databricks، أدخل القيم لإنشاء مساحة عمل Databricks.

    Create an Azure Databricks workspace

    قم بتوفير القيم التالية:

    الخاصية الوصف
    اسم مساحة العمل توفير اسم لمساحة عمل Databricks
    الاشتراك من القائمة المنسدلة، حدد اشتراك Azure الخاص بك.
    مجموعة الموارد حدد «ما إذا كنت تريد إنشاء مجموعة موارد جديدة أو استخدام مجموعة موجودة». مجموعة الموارد هي حاوية تحتفظ بالموارد ذات الصلة لحل Azure. لمزيد من المعلومات، راجع نظرة عامة حول مجموعة موارد Azure.
    ⁩الموقع⁧ حدد غرب الولايات المتحدة 2. بالنسبة إلى المناطق الأخرى المتوفرة، راجع خدمات Azure المتوفرة حسب المنطقة.
    ⁩مستوى الأسعار⁧ اختر بين قياسيأو Premium أو تجريبي. لمزيد من المعلومات حول هذه المستويات، راجع صفحة تسعير Databricks.
  3. حدد Review + Create، ثم حدد Create. يستغرق إنشاء مساحة العمل بضع دقائق. أثناء إنشاء مساحة العمل، يمكنك عرض حالة النشر في الإعلامات. بمجرد الانتهاء من هذه العملية، تتم إضافة حساب المستخدم الخاص بك تلقائيا كمستخدم مسؤول في مساحة العمل.

    Databricks deployment tile

    عند فشل نشر مساحة عمل، لا يزال يتم إنشاء مساحة العمل في حالة فشل. حذف مساحة العمل الفاشلة وإنشاء مساحة عمل جديدة تعمل على حل أخطاء النشر. عند حذف مساحة العمل الفاشلة، يتم أيضا حذف مجموعة الموارد المدارة وأي موارد تم نشرها بنجاح.

إنشاء نظام مجموعة Spark في Databricks

ملاحظة

لاستخدام حساب مجاني لإنشاء مجموعة Azure Databricks، قبل إنشاء المجموعة، انتقل إلى ملف التعريف الخاص بك وقم بتغيير اشتراكك إلى الدفع أولا بأول. لمزيد من المعلومات، راجع حساب Azure المجاني.

  1. في مدخل Azure، انتقل إلى مساحة عمل Databricks التي قمت بإنشائها، ثم انقر فوق تشغيل مساحة العمل.

  2. سوف تتم إعادة توجيهك إلى مدخل Microsoft Azure Databricks. من البوابة الإلكترونية، انقر فوق نظام مجموعة جديد.

    Databricks on Azure

  3. في صفحة نظام المجموعة الجديد، أدخل القيم لإنشاء نظام مجموعة.

    Create Databricks Spark cluster on Azure

    اقبل جميع القيم الافتراضية الأخرى بخلاف الآتي:

    • أدخل اسماً لنظام المجموعة.

    • لهذه المقالة، قم بإنشاء نظام مجموعة مع وقت تشغيل (5.X، 6.X، 7.X).

    • تأكد من تحديد خانة الاختيار إنهاء بعد __ دقائق من عدم النشاط . أدخل مدة (بالدقائق) لإنهاء نظام المجموعة، إذا لم يتم استخدامه.

      حدد إنشاء نظام مجموعة. بمجرد تشغيل نظام المجموعة، يمكنك إرفاق دفاتر ملاحظات بنظام المجموعة وتشغيل مهام Spark.

لمزيد من المعلومات حول إنشاء أنظمة المجموعات، راجع إنشاء نظام مجموعة Spark في Azure Databricks.

تشغيل وظيفة Spark SQL

قم بتنفيذ المهام التالية لإنشاء دفتر ملاحظات في Databricks، وقم بتكوين دفتر الملاحظات لقراءة البيانات من مجموعات بيانات Azure المفتوحة، ثم قم بتشغيل مهمة Spark SQL على البيانات.

  1. في الجزء الأيمن، حدد Azure Databricks. من المهام الشائعة، حدد دفتر ملاحظات جديد.

    Create a new notebook

  2. في صندوق الحوار إنشاء دفتر حدد لغة Python بوصفها اللغة المستخدمة، ثم حدد نظام مجموعة Spark الذي أنشأته سابقاً.

    Enter notebook details

    حدد Create.

  3. في هذه الخطوة، قم بإنشاء Spark DataFrame باستخدام بيانات أمان سياتل من مجموعات بيانات Azure المفتوحة، واستخدم SQL للاستعلام عن البيانات.

    يعين الأمر التالي معلومات الوصول إلى تخزين Azure. الصق رمز PySpark هذا في الخلية الأولى واستخدم Shift+Enter لتشغيل التعليمة البرمجية.

    blob_account_name = "azureopendatastorage"
    blob_container_name = "citydatacontainer"
    blob_relative_path = "Safety/Release/city=Seattle"
    blob_sas_token = r"?st=2019-02-26T02%3A34%3A32Z&se=2119-02-27T02%3A34%3A00Z&sp=rl&sv=2018-03-28&sr=c&sig=XlJVWA7fMXCSxCKqJm8psMOh0W4h7cSYO28coRqF2fs%3D"
    

    يسمح الأمر التالي ل Spark بالقراءة من وحدة تخزين Blob عن بعد. الصق رمز PySpark هذا في الخلية التالية واستخدم Shift+Enter لتشغيل التعليمة البرمجية.

    wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
    spark.conf.set('fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token)
    print('Remote blob path: ' + wasbs_path)
    

    ينشئ الأمر التالي DataFrame. الصق رمز PySpark هذا في الخلية التالية واستخدم Shift+Enter لتشغيل التعليمة البرمجية.

    df = spark.read.parquet(wasbs_path)
    print('Register the DataFrame as a SQL temporary view: source')
    df.createOrReplaceTempView('source')
    
  4. تشغيل عبارة SQL إرجاع أعلى 10 صفوف من البيانات من طريقة العرض المؤقتة المسماة المصدر. الصق رمز PySpark هذا في الخلية التالية واستخدم Shift+Enter لتشغيل التعليمة البرمجية.

    print('Displaying top 10 rows: ')
    display(spark.sql('SELECT * FROM source LIMIT 10'))
    
  5. سترى إخراجا جدوليا كما هو موضح في لقطة الشاشة التالية (يتم عرض بعض الأعمدة فقط):

    Sample data

  6. يمكنك الآن إنشاء تمثيل مرئي لهذه البيانات لإظهار عدد أحداث السلامة التي يتم الإبلاغ عنها باستخدام تطبيق Citizens الاتصال وتطبيق عامل المدينة بدلا من المصادر الأخرى. من أسفل المخرجات الجدولية، حدد أيقونة المخطط الشريطي ، ثم انقر فوق خيارات الرسم.

    Create bar chart

  7. في تخصيص المخطط، قيم السحب والإفلات كما هو موضح في لقطة الشاشة.

    Customize pie chart

    • تعيين المفاتيح إلى المصدر.

    • قم بتعيين القيم إلى \id.

    • قم بتعيين التجميع إلى COUNT.

    • قم بتعيين نوع العرض إلى مخطط دائري.

      انقر فوق تطبيق.

تنظيف الموارد

بعد الانتهاء من المقالة، يمكنك إنهاء الكتلة. للقيام بذلك، من مساحة عمل Azure Databricks، من الجزء الأيمن، حدد الكتل. بالنسبة إلى المجموعة التي تريد إنهاؤها، حرك المؤشر فوق علامة الحذف ضمن عمود الإجراءات ، وحدد أيقونة إنهاء .

Stop a Databricks cluster

إذا لم تقم بإنهاء المجموعة يدويا، إيقافها تلقائيا، شريطة أن تحدد خانة الاختيار إنهاء بعد __ دقائق من عدم النشاط أثناء إنشاء نظام المجموعة. في مثل هذه الحالة ، تتوقف المجموعة تلقائيا ، إذا كانت غير نشطة للوقت المحدد.

الخطوات التالية

في هذه المقالة، قمت بإنشاء مجموعة Spark في Azure Databricks وقمت بتشغيل مهمة Spark باستخدام بيانات من مجموعات بيانات Azure المفتوحة. يمكنك أيضا الاطلاع على مصادر بيانات Spark لمعرفة كيفية استيراد البيانات من مصادر بيانات أخرى إلى Azure Databricks. انتقل إلى المقالة التالية لمعرفة كيفية تنفيذ عملية ETL (استخراج البيانات وتحويلها وتحميلها) باستخدام Azure Databricks.