Condividi tramite


Informazioni su Apache Spark per sviluppatori U-SQL

Importante

Azure Data Lake Analytics ritirato il 29 febbraio 2024. Altre informazioni con questo annuncio.

Per l'analisi dei dati, l'organizzazione può usare Azure Synapse Analytics o Microsoft Fabric.

Microsoft supporta diversi servizi di Analisi, ad esempio Azure Databricks, Azure HDInsight e Azure Data Lake Analytics. Gli sviluppatori hanno una chiara preferenza per le soluzioni open source quando creano pipeline di analisi. Per aiutare gli sviluppatori U-SQL a comprendere Apache Spark e come trasformare gli script U-SQL in Apache Spark, sono state create queste indicazioni.

Include i passaggi che è possibile eseguire e diverse alternative.

Passaggi per trasformare U-SQL in Apache Spark

  1. Trasformare le pipeline di orchestrazione del processo.

    Se si usa Azure Data Factory per orchestrare gli script di Azure Data Lake Analytics, è necessario modificarli per orchestrare i nuovi programmi Spark.

  2. Comprendere le differenze tra il modo in cui U-SQL e Spark gestiscono i dati.

    Se si desidera spostare i dati da Azure Data Lake Storage Gen1 a Azure Data Lake Storage Gen2, è necessario copiare sia i dati dei file che i dati del catalogo gestiti. Azure Data Lake Analytics supporta solo Azure Data Lake Storage Gen1. Per altre informazioni, vedere Informazioni sui formati di dati Spark.

  3. Trasformare gli script U-SQL in Spark.

    Prima di trasformare gli script U-SQL, è necessario scegliere un servizio di analisi. Alcuni dei servizi di calcolo disponibili sono:

    • Azure Data Factory i flussi di dati di mapping dei flussi di dati sono progettati visivamente per consentire ai data engineer di sviluppare una logica di trasformazione dati grafica senza scrivere codice. Anche se non è adatto per eseguire codice utente complesso, possono rappresentare facilmente trasformazioni tradizionali del flusso di dati come SQL
    • Hive di Azure HDInsight Apache Hive in HDInsight è adatto alle operazioni Extract, Transform e Load (ETL). Ciò significa che si convertiranno gli script U-SQL in Apache Hive.
    • Motori Apache Spark, ad esempio Azure HDInsight Spark o Azure Databricks , significa che si convertiranno gli script U-SQL in Spark. Per altre informazioni, vedere Informazioni sui formati di dati Spark

Attenzione

Sia Azure Databricks che Azure HDInsight Spark sono servizi cluster e non processi serverless come Azure Data Lake Analytics. È necessario considerare come effettuare il provisioning dei cluster per ottenere il rapporto costi/prestazioni appropriato e come gestire la loro durata per ridurre al minimo i costi. Questi servizi hanno caratteristiche di prestazioni diverse con il codice utente scritto in .NET, quindi è necessario scrivere wrapper o riscrivere il codice in un linguaggio supportato. Per altre informazioni, vedere Informazioni sui formati di dati Spark, Informazioni sui concetti relativi al codice Apache Spark per sviluppatori U-SQL, .NET per Apache Spark

Passaggi successivi