Comprendre Apache Spark pour les développeurs U-SQL

Important

Azure Data Lake Analytics mis hors service le 29 février 2024. Découvrez-en plus avec cette annonce.

Pour l’analytique des données, votre organization peut utiliser Azure Synapse Analytics ou Microsoft Fabric.

Microsoft prend en charge plusieurs services d’analytique tels qu’Azure Databricks, Azure HDInsight et Azure Data Lake Analytics. Les développeurs nous font savoir qu’ils ont une nette préférence pour les solutions open source lorsqu’ils créent des pipelines d’analyse. Pour aider les développeurs U-SQL à comprendre Apache Spark et la façon dont vous pouvez transformer vos scripts U-SQL en Apache Spark, nous avons créé ce guide.

Il comprend les étapes que vous pouvez suivre et plusieurs alternatives.

Étapes de transformation de U-SQL en Apache Spark

  1. Transformez vos pipelines d’orchestration de travail.

    Si vous utilisez Azure Data Factory pour orchestrer vos scripts Azure Data Lake Analytics, vous devez les ajuster pour orchestrer les nouveaux programmes Spark.

  2. Comprendre les différences entre la façon dont U-SQL et Spark gèrent les données.

    Si vous souhaitez déplacer vos données de Azure Data Lake Storage Gen1 vers Azure Data Lake Storage Gen2, vous devez copier les données de fichier et les données de catalogue gérées. Azure Data Lake Analytics prend uniquement en charge Azure Data Lake Storage Gen1. Pour plus d’informations, consultez Comprendre les formats de données Spark.

  3. Transformez vos scripts U-SQL en Spark.

    Avant de transformer vos scripts U-SQL, vous devez choisir un service d’analytique. Voici quelques-uns des services de calcul disponibles :

    • Flux de données Azure Data Factory Les mappages de flux de données sont des transformations de données visuellement conçues qui permettent aux ingénieurs de données de développer une logique de transformation de données graphique sans écrire de code. Bien qu’ils ne soient pas adaptés pour exécuter du code utilisateur complexe, ils peuvent facilement représenter des transformations de flux de données de type SQL traditionnelles
    • Azure HDInsight Hive Apache Hive sur HDInsight est adapté aux opérations d’extraction, de transformation et de chargement (ETL). Cela signifie que vous allez traduire vos scripts U-SQL en Apache Hive.
    • Moteurs Apache Spark tels qu’Azure HDInsight Spark ou Azure Databricks Cela signifie que vous allez traduire vos scripts U-SQL en Spark. Pour plus d’informations, consultez Comprendre les formats de données Spark

Attention

Azure Databricks et Azure HDInsight Spark sont des services de cluster et non des travaux serverless comme Azure Data Lake Analytics. Vous devez réfléchir à la façon d’approvisionner les clusters pour obtenir le ratio coût/performances approprié et comment gérer leur durée de vie pour réduire vos coûts. Ces services ont des caractéristiques de performances différentes du code utilisateur écrit en .NET, vous devez donc écrire des wrappers ou réécrire votre code dans un langage pris en charge. Pour plus d’informations, consultez Comprendre les formats de données Spark, Comprendre les concepts de code Apache Spark pour les développeurs U-SQL, .NET pour Apache Spark

Étapes suivantes