Vysvětlení Apache Sparku pro vývojáře v U-SQL

Microsoft podporuje několik analytických služeb, jako jsou Azure Databricks a Azure HDInsight , a také Azure Data Lake Analytics. Od vývojářů uslyšíme, že mají při vytváření kanálů analýz k dispozici jasné předvolby pro open source řešení. Aby mohli vývojáři U-SQL pochopit Apache Spark a jak byste mohli transformovat skripty U-SQL na Apache Spark, vytvořili jsme tento návod.

Zahrnuje řadu kroků, které můžete provést, a několik alternativ.

Postup transformace U-SQL na Apache Spark

  1. Transformujte kanály orchestrace úloh.

    Pokud k orchestraci Azure Data Lake Analytics skriptů použijete Azure Data Factory , budete je muset upravit a orchestrovat nové programy Spark.

  2. Vysvětlení rozdílů mezi tím, jak se spravují data U-SQL a Sparku

    Chcete-li přesunout data z Azure Data Lake Storage Gen1 do Azure Data Lake Storage Gen2, budete muset zkopírovat data souborů i katalog uchovávající data. Upozorňujeme, že Azure Data Lake Analytics podporuje jenom Azure Data Lake Storage Gen1. Viz vysvětlení formátů dat Spark

  3. Transformace skriptů U-SQL na Spark

    Než transformují vaše skripty U-SQL, budete muset vybrat analytickou službu. K dispozici jsou tyto dostupné výpočetní služby:

    • Azure Data Factory tok dat Mapování toků dat je vizuálně navržené transformace dat, které umožňují datovým technikům vyvíjet grafickou logiku transformace dat bez psaní kódu. I když nejsou vhodné ke spouštění komplexního uživatelského kódu, můžou snadno představovat tradiční transformace toku dat typu SQL.
    • Podregistr Azure HDInsight Apache Hive ve službě HDInsight je vhodné k extrakci, transformaci a načítání (ETL) operací. To znamená, že budete překládat skripty U-SQL na Apache Hive.
    • Apache Spark stroje jako Azure HDInsight Spark nebo Azure Databricks to znamená, že budete překládat své skripty U-SQL do Sparku. Další informace najdete v tématu Principy formátů dat Spark .

Upozornění

Azure Databricks i Azure HDInsight Spark jsou Clusterové služby a nejedná se o úlohy bez serveru, jako je Azure Data Lake Analytics. Budete muset zvážit, jak zřídit clustery, abyste získali příslušný poměr nákladů a výkonu a jak spravovat jejich životnost, abyste minimalizovali náklady. Tyto služby mají různé charakteristiky výkonu s uživatelským kódem napsaným v .NET, takže budete muset napsat obálky nebo přepsat kód v podporovaném jazyce. Další informace najdete v tématu Principy formátů dat Spark, Principy Apache Spark koncepcí kódu pro vývojáře u-SQL, .NET pro Apache Spark

Další kroky