Förstå Apache Spark för U-SQL-utvecklare
Microsoft stöder flera analys tjänster som Azure Databricks och Azure HDInsight samt Azure Data Lake Analytics. Vi hör från utvecklare att de har en tydlig inställning för lösningar med öppen källkod när de skapar analys pipeliner. För att hjälpa U-SQL-utvecklare att förstå Apache Spark och hur du kan omvandla dina U-SQL-skript till Apache Spark, har vi skapat den här vägledningen.
Det innehåller ett antal steg som du kan vidta och flera alternativ.
Steg för att transformera U-SQL till Apache Spark
Transformera dina jobb Dirigerings pipeliner.
Om du använder Azure Data Factory för att dirigera dina Azure Data Lake Analytics-skript måste du justera dem för att dirigera de nya Spark-programmen.
Förstå skillnaderna mellan hur U-SQL och Spark hanterar data
Om du vill flytta data från Azure Data Lake Storage gen1 till Azure Data Lake Storage Gen2måste du kopiera både fildata och katalogen med data. Observera att Azure Data Lake Analytics endast stöder Azure Data Lake Storage Gen1. Se förstå Spark data format
Omvandla U-SQL-skript till Spark
Innan du kan omvandla U-SQL-skripten måste du välja en analys tjänst. Några av de tillgängliga beräknings tjänsterna är:
- Azure Data Factory-dataflöde Mappning av data flöden är visuellt utformad med data transformationer som gör det möjligt för data tekniker att utveckla en grafisk data omvandlings logik utan att skriva kod. Även om det inte passar att köra komplex användar kod kan de enkelt representera traditionella SQL-liknande data flödes omvandlingar
- Azure HDInsight Hive Apache Hive i HDInsight är lämpligt för att extrahera, transformera och läsa in (ETL) åtgärder. Det innebär att du kommer att översätta U-SQL-skripten till Apache Hive.
- Apache Spark-motorer som Azure HDInsight Spark eller Azure Databricks det innebär att du kommer att översätta U-SQL-skript till Spark. Mer information finns i förstå Spark data format
Varning
Både Azure Databricks och Azure HDInsight Spark är kluster tjänster och inte serverbaserade jobb som Azure Data Lake Analytics. Du måste fundera över hur du ska etablera klustren för att få rätt kostnad/prestanda-förhållande och hur du hanterar deras livs längd för att minimera kostnaderna. Dessa tjänster har olika prestanda egenskaper med användar kod som skrivits i .NET, så du måste antingen skriva omslutningar eller skriva om koden på ett språk som stöds. Mer information finns i förstå Spark-dataformat, förstå Apache Spark kod koncept för U-SQL-utvecklare, .net för Apache Spark
Nästa steg
- Förstå Spark data format för U-SQL-utvecklare
- Förstå Spark Code-koncept för U-SQL-utvecklare
- Uppgradera dina Big data Analytics-lösningar från Azure Data Lake Storage Gen1 till Azure Data Lake Storage Gen2
- .NET för Apache Spark
- Transformera data med Hadoop Hive-aktivitet i Azure Data Factory
- Transformera data med Spark-aktivitet i Azure Data Factory
- Vad är Apache Spark i Azure HDInsight