فهم Apache Spark لمطوري U-SQL

هام

تم إيقاف Azure Data Lake Analytics في 29 فبراير 2024. تعرف على المزيد من خلال هذا الإعلان.

بالنسبة لتحليلات البيانات، يمكن لمؤسستك استخدام Azure Synapse Analytics أو Microsoft Fabric.

تدعم Microsoft العديد من خدمات التحليلات مثل Azure DatabricksوAzure HDInsight وAzure Data Lake Analytics. نسمع من المطورين أن لديهم تفضيلا واضحا للحلول مفتوحة المصدر أثناء إنشاء مسارات التحليلات. لمساعدة مطوري U-SQL على فهم Apache Spark، وكيف يمكنك تحويل البرامج النصية U-SQL إلى Apache Spark، أنشأنا هذا التوجيه.

يتضمن الخطوات التي يمكنك اتخاذها، والعديد من البدائل.

خطوات تحويل U-SQL إلى Apache Spark

  1. تحويل البنية الأساسية لبرنامج ربط العمليات التجارية لتنسيق الوظيفة.

    إذا كنت تستخدم Azure Data Factory لتنسيق البرامج النصية ل Azure Data Lake Analytics، يجب عليك ضبطها لتنسيق برامج Spark الجديدة.

  2. فهم الاختلافات بين كيفية إدارة U-SQL وSpark للبيانات.

    إذا كنت تريد نقل بياناتك من Azure Data Lake Storage Gen1 إلى Azure Data Lake Storage Gen2، يجب عليك نسخ كل من بيانات الملف والبيانات التي يحتفظ بها الكتالوج. يدعم Azure Data Lake Analytics Azure Data Lake Storage Gen1 فقط. لمزيد من المعلومات، راجع فهم تنسيقات بيانات Spark.

  3. تحويل البرامج النصية U-SQL إلى Spark.

    قبل تحويل البرامج النصية U-SQL، يجب عليك اختيار خدمة تحليلات. بعض خدمات الحوسبة المتوفرة هي:

    • Azure Data Factory DataFlow تعيين تدفقات البيانات عبارة عن تحويلات بيانات مصممة بصريا تسمح لمهندسي البيانات بتطوير منطق تحويل بيانات رسومي دون كتابة التعليمات البرمجية. على الرغم من أنها غير مناسبة لتنفيذ التعليمات البرمجية المعقدة للمستخدم، فإنها يمكن أن تمثل بسهولة تحويلات تدفق البيانات التقليدية الشبيهة ب SQL
    • Azure HDInsight Hive Apache Hive على HDInsight مناسب لعمليات الاستخراج والتحويل والتحميل (ETL). وهذا يعني أنك ستقوم بترجمة البرامج النصية U-SQL إلى Apache Hive.
    • محركات Apache Spark مثل Azure HDInsight Spark أو Azure Databricks وهذا يعني أنك ستقوم بترجمة البرامج النصية U-SQL إلى Spark. لمزيد من المعلومات، راجع فهم تنسيقات بيانات Spark

تنبيه

كل من Azure DatabricksوAzure HDInsight Spark هما خدمات نظام المجموعة وليسا وظائف بلا خادم مثل Azure Data Lake Analytics. سيتعين عليك التفكير في كيفية توفير المجموعات للحصول على نسبة التكلفة/الأداء المناسبة وكيفية إدارة مدة بقائها لتقليل التكاليف الخاصة بك. هذه الخدمات لها خصائص أداء مختلفة مع التعليمات البرمجية للمستخدم المكتوبة بلغة .NET، لذلك سيتعين عليك إما كتابة برامج تضمين أو إعادة كتابة التعليمات البرمجية بلغة مدعومة. لمزيد من المعلومات، راجع فهم تنسيقات بيانات Spark، وفهم مفاهيم التعليمات البرمجية ل Apache Spark لمطوري U-SQL، و.NET ل Apache Spark

الخطوات التالية