فهم Apache Spark لمطوري U-SQL
هام
تم إيقاف Azure Data Lake Analytics في 29 فبراير 2024. تعرف على المزيد من خلال هذا الإعلان.
بالنسبة لتحليلات البيانات، يمكن لمؤسستك استخدام Azure Synapse Analytics أو Microsoft Fabric.
تدعم Microsoft العديد من خدمات التحليلات مثل Azure DatabricksوAzure HDInsight وAzure Data Lake Analytics. نسمع من المطورين أن لديهم تفضيلا واضحا للحلول مفتوحة المصدر أثناء إنشاء مسارات التحليلات. لمساعدة مطوري U-SQL على فهم Apache Spark، وكيف يمكنك تحويل البرامج النصية U-SQL إلى Apache Spark، أنشأنا هذا التوجيه.
يتضمن الخطوات التي يمكنك اتخاذها، والعديد من البدائل.
خطوات تحويل U-SQL إلى Apache Spark
تحويل البنية الأساسية لبرنامج ربط العمليات التجارية لتنسيق الوظيفة.
إذا كنت تستخدم Azure Data Factory لتنسيق البرامج النصية ل Azure Data Lake Analytics، يجب عليك ضبطها لتنسيق برامج Spark الجديدة.
فهم الاختلافات بين كيفية إدارة U-SQL وSpark للبيانات.
إذا كنت تريد نقل بياناتك من Azure Data Lake Storage Gen1 إلى Azure Data Lake Storage Gen2، يجب عليك نسخ كل من بيانات الملف والبيانات التي يحتفظ بها الكتالوج. يدعم Azure Data Lake Analytics Azure Data Lake Storage Gen1 فقط. لمزيد من المعلومات، راجع فهم تنسيقات بيانات Spark.
تحويل البرامج النصية U-SQL إلى Spark.
قبل تحويل البرامج النصية U-SQL، يجب عليك اختيار خدمة تحليلات. بعض خدمات الحوسبة المتوفرة هي:
- Azure Data Factory DataFlow تعيين تدفقات البيانات عبارة عن تحويلات بيانات مصممة بصريا تسمح لمهندسي البيانات بتطوير منطق تحويل بيانات رسومي دون كتابة التعليمات البرمجية. على الرغم من أنها غير مناسبة لتنفيذ التعليمات البرمجية المعقدة للمستخدم، فإنها يمكن أن تمثل بسهولة تحويلات تدفق البيانات التقليدية الشبيهة ب SQL
- Azure HDInsight Hive Apache Hive على HDInsight مناسب لعمليات الاستخراج والتحويل والتحميل (ETL). وهذا يعني أنك ستقوم بترجمة البرامج النصية U-SQL إلى Apache Hive.
- محركات Apache Spark مثل Azure HDInsight Spark أو Azure Databricks وهذا يعني أنك ستقوم بترجمة البرامج النصية U-SQL إلى Spark. لمزيد من المعلومات، راجع فهم تنسيقات بيانات Spark
تنبيه
كل من Azure DatabricksوAzure HDInsight Spark هما خدمات نظام المجموعة وليسا وظائف بلا خادم مثل Azure Data Lake Analytics. سيتعين عليك التفكير في كيفية توفير المجموعات للحصول على نسبة التكلفة/الأداء المناسبة وكيفية إدارة مدة بقائها لتقليل التكاليف الخاصة بك. هذه الخدمات لها خصائص أداء مختلفة مع التعليمات البرمجية للمستخدم المكتوبة بلغة .NET، لذلك سيتعين عليك إما كتابة برامج تضمين أو إعادة كتابة التعليمات البرمجية بلغة مدعومة. لمزيد من المعلومات، راجع فهم تنسيقات بيانات Spark، وفهم مفاهيم التعليمات البرمجية ل Apache Spark لمطوري U-SQL، و.NET ل Apache Spark
الخطوات التالية
- فهم تنسيقات بيانات Spark لمطوري U-SQL
- فهم مفاهيم التعليمات البرمجية Spark لمطوري U-SQL
- ترقية حلول تحليلات البيانات الضخمة من Azure Data Lake Storage Gen1 إلى Azure Data Lake Storage Gen2
- .NET لـ Apache Spark
- تحويل البيانات باستخدام نشاط Hadoop Hive في Azure Data Factory
- تحويل البيانات باستخدام نشاط Spark في Azure Data Factory
- ما هو Apache Spark في Azure HDInsight