Vysvětlení Apache Sparku pro vývojáře v U-SQL
Microsoft podporuje několik analytických služeb, jako jsou Azure Databricks a Azure HDInsight , a také Azure Data Lake Analytics. Od vývojářů uslyšíme, že mají při vytváření kanálů analýz k dispozici jasné předvolby pro open source řešení. Aby mohli vývojáři U-SQL pochopit Apache Spark a jak byste mohli transformovat skripty U-SQL na Apache Spark, vytvořili jsme tento návod.
Zahrnuje řadu kroků, které můžete provést, a několik alternativ.
Postup transformace U-SQL na Apache Spark
Transformujte kanály orchestrace úloh.
Pokud k orchestraci Azure Data Lake Analytics skriptů použijete Azure Data Factory , budete je muset upravit a orchestrovat nové programy Spark.
Vysvětlení rozdílů mezi tím, jak se spravují data U-SQL a Sparku
Chcete-li přesunout data z Azure Data Lake Storage Gen1 do Azure Data Lake Storage Gen2, budete muset zkopírovat data souborů i katalog uchovávající data. Upozorňujeme, že Azure Data Lake Analytics podporuje jenom Azure Data Lake Storage Gen1. Viz vysvětlení formátů dat Spark
Transformace skriptů U-SQL na Spark
Než transformují vaše skripty U-SQL, budete muset vybrat analytickou službu. K dispozici jsou tyto dostupné výpočetní služby:
- Azure Data Factory tok dat Mapování toků dat je vizuálně navržené transformace dat, které umožňují datovým technikům vyvíjet grafickou logiku transformace dat bez psaní kódu. I když nejsou vhodné ke spouštění komplexního uživatelského kódu, můžou snadno představovat tradiční transformace toku dat typu SQL.
- Podregistr Azure HDInsight Apache Hive ve službě HDInsight je vhodné k extrakci, transformaci a načítání (ETL) operací. To znamená, že budete překládat skripty U-SQL na Apache Hive.
- Apache Spark stroje jako Azure HDInsight Spark nebo Azure Databricks to znamená, že budete překládat své skripty U-SQL do Sparku. Další informace najdete v tématu Principy formátů dat Spark .
Upozornění
Azure Databricks i Azure HDInsight Spark jsou Clusterové služby a nejedná se o úlohy bez serveru, jako je Azure Data Lake Analytics. Budete muset zvážit, jak zřídit clustery, abyste získali příslušný poměr nákladů a výkonu a jak spravovat jejich životnost, abyste minimalizovali náklady. Tyto služby mají různé charakteristiky výkonu s uživatelským kódem napsaným v .NET, takže budete muset napsat obálky nebo přepsat kód v podporovaném jazyce. Další informace najdete v tématu Principy formátů dat Spark, Principy Apache Spark koncepcí kódu pro vývojáře u-SQL, .NET pro Apache Spark
Další kroky
- Principy formátů dat Spark pro vývojáře U-SQL
- Principy konceptů kódu Spark pro vývojáře U-SQL
- Upgradujte řešení pro analýzu velkých objemů dat z Azure Data Lake Storage Gen1 na Azure Data Lake Storage Gen2
- .NET pro Apache Spark
- Transformuje data pomocí aktivity podregistru Hadoop v Azure Data Factory
- Transformuje data pomocí aktivity Sparku v Azure Data Factory
- Co je Apache Spark ve službě Azure HDInsight