Descripción de Apache Spark para desarrolladores de U-SQL

Microsoft admite varios servicios de análisis como Azure Databricks y Azure HDInsight, así como Azure Data Lake Analytics. Los desarrolladores nos comentan que tienen una preferencia clara por las soluciones de código abierto cuando crean canalizaciones de análisis. Creamos esta guía para ayudar a los desarrolladores de U-SQL a comprender Apache Spark y para que sepa cómo se pueden transformar los scripts de U-SQL a Apache Spark.

Incluye una serie de pasos que puede realizar y varias alternativas.

Pasos para transformar U-SQL en Apache Spark

  1. Transforme las canalizaciones de orquestación de trabajos.

    Si usa Azure Data Factory para orquestar los scripts de Azure Data Lake Analytics, tendrá que ajustarlos para orquestar los nuevos programas de Spark.

  2. Descripción de las diferencias entre cómo U-SQL y Spark administran los datos

    Si quiere migrar los datos de Azure Data Lake Storage Gen1 a Azure Data Lake Storage Gen2, tendrá que copiar los datos del archivo y los datos mantenidos en el catálogo. Tenga en cuenta que Azure Data Lake Analytics solo admite Azure Data Lake Storage Gen1. Consulte Descripción de los formatos de datos de Spark.

  3. Transformación de los scripts de U-SQL en Spark

    Antes de transformar los scripts de U-SQL, tendrá que elegir un servicio de análisis. Algunos de los servicios de proceso disponibles son:

    • Flujos de datos de Azure Data Factory Los flujos de datos de asignación son transformaciones de datos diseñadas de manera visual que permiten a los ingenieros de datos desarrollar una lógica de transformación de datos gráficos sin necesidad de escribir código. Aunque no son adecuados para ejecutar código de usuario complejo, pueden representar fácilmente transformaciones de flujo de datos similares a SQL tradicional.
    • Hive de Azure HDInsight Apache Hive en HDInsight es adecuado para las operaciones de extracción, transformación y carga (ETL). Esto significa que va a traducir los scripts de U-SQL a Apache Hive.
    • Motores de Apache Spark como Azure HDInsight Spark o Azure Databricks Esto significa que va a traducir los scripts de U-SQL a Spark. Para más información, consulte Descripción de los formatos de datos de Spark.

Precaución

Tanto Azure Databricks como Azure HDInsight Spark son servicios de clúster y no trabajos sin servidor como Azure Data Lake Analytics. Tendrá que tener en cuenta cómo aprovisionar los clústeres para obtener la relación de costo/rendimiento adecuada y cómo administrar su duración para minimizar los costos. Estos servicios tienen características de rendimiento distintas con el código de usuario escrito en .NET, por lo que tendrá que escribir contenedores o reescribir el código en un lenguaje compatible. Para más información, consulte Descripción de los formatos de datos de Spark, Descripción de los conceptos de código de Apache Spark para los desarrolladores de U-SQL, .NET para Apache Spark.

Pasos siguientes