U-SQL geliştiricileri için Apache Spark'ı anlama
Microsoft, Azure Databricks ve Azure HDInsight gibi çeşitli analiz hizmetlerini ve Azure Data Lake Analytics destekler. Geliştiricilerden analitik işlem hatları oluştururken açık kaynaklı çözümler için açık bir tercih olduğunu duyduk. U-SQL geliştiricilerinin Apache Spark anlamalarına yardımcı olmak ve U-SQL betiklerini Apache Spark 'ye nasıl dönüştürebileceğinizi öğrenmek için bu kılavuzu oluşturduk.
Uygulayabileceğiniz birçok adımı ve çeşitli alternatifleri içerir.
U-SQL ' y i dönüştürme adımları Apache Spark
İş düzenleme işlem hatlarınızı dönüştürün.
Azure Data Lake Analytics betiklerinizi düzenlemek için Azure Data Factory kullanıyorsanız, bunları yeni Spark programlarını yönetmek için ayarlamanız gerekir.
U-SQL ve Spark 'ın verileri yönetme arasındaki farkları anlayın
Azure Data Lake Storage 1. verilerinizi Azure Data Lake Storage 2.taşımak istiyorsanız, hem dosya verilerini hem de katalog tarafından tutulan verileri kopyalamanız gerekir. Azure Data Lake Analytics yalnızca Azure Data Lake Storage 1. desteklediğini unutmayın. Bkz. Spark veri biçimlerini anlama
U-SQL komut dosyalarınızı Spark 'a dönüştürme
U-SQL komut dosyalarınızı dönüştürmeden önce bir analiz hizmeti seçmeniz gerekir. Kullanılabilir bazı kullanılabilir işlem hizmetleri şunlardır:
- Azure Data Factory veri akışı Veri akışlarını eşleme, veri mühendislerinin kod yazmadan bir grafik veri dönüştürme mantığı geliştirmesini sağlayan görsel olarak tasarlanan veri dönüştürmelerdir. Karmaşık Kullanıcı kodu yürütmeye uygun olmasa da, geleneksel SQL benzeri veri akışı dönüşümlerini kolayca temsil edebilirler
- Azure HDInsight Hive HDInsight üzerinde Apache Hive, ayıklama, dönüştürme ve yükleme (ETL) işlemlerine uygundur. Bu, U-SQL komut dosyalarınızı Apache Hive için çevileyeceğiz anlamına gelir.
- Azure HDInsight Spark veya Azure Databricks gibi Apache Spark ALTYAPıLARı, U-SQL komut dosyalarınızı Spark 'a çevileyeceğiz anlamına gelir. Daha fazla bilgi için bkz. Spark veri biçimlerini anlama
Dikkat
Hem Azure Databricks hem de Azure HDInsight Spark küme hizmetlerdir ve Azure Data Lake Analytics gibi sunucusuz işler değildir. Uygun maliyet/performans oranını almak için kümelerin nasıl sağlanacağını ve maliyetlerinizi en aza indirmek için yaşam sürelerinin nasıl yönetileceğini göz önünde bulundurmanız gerekir. Bu hizmetler, .NET dilinde yazılmış kullanıcı koduna sahip farklı performans özelliklerine sahiptir, bu nedenle sarmalayıcıları yazmanız veya kodunuzu desteklenen bir dilde yeniden yazmanız gerekecektir. Daha fazla bilgi için bkz. Spark veri biçimlerini anlama, U-SQL geliştiricileri için Apache Spark kod kavramlarını anlama, Apache Spark için .net
Sonraki adımlar
- U-SQL geliştiricileri için Spark veri biçimlerini anlama
- U-SQL geliştiricileri için Spark kod kavramlarını anlama
- Büyük veri analizi Çözümlerinizi Azure Data Lake Storage 1. Azure Data Lake Storage 2. ' dan yükseltin
- Apache Spark için .NET
- Azure Data Factory Hadoop Hive etkinliğini kullanarak verileri dönüştürme
- Azure Data Factory Spark etkinliğini kullanarak verileri dönüştürme
- Azure HDInsight’ta Apache Spark nedir?