Inicio rápido: Creación de un grupo de Apache Spark sin servidor mediante Azure Portal

Azure Synapse Analytics ofrece varios motores de análisis que le ayudarán a ingerir, transformar, modelar, analizar y distribuir sus datos. Un grupo de Apache Spark proporciona funcionalidades de proceso de macrodatos de código abierto. Después de crear un grupo de Apache Spark en el área de trabajo de Synapse, los datos se pueden cargar, modelar, procesar y distribuir para tener información para los análisis más rápidamente.

En este inicio rápido, va a aprender a usar Azure Portal para crear un trabajo de Apache Spark en un área de trabajo de Synapse.

Importante

La facturación de las instancias de Spark se prorratea por minuto, tanto si se usan como si no. Asegúrese de cerrar la instancia de Spark después de que haya terminado de usarla, o configure un breve tiempo de espera. Para obtener más información, consulte la sección Limpieza de recursos de este artículo.

Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.

Requisitos previos

Inicio de sesión en Azure Portal

Inicie sesión en el Portal de Azure

  1. Vaya al área de trabajo de Synapse en la que se va a crear el grupo de Apache Spark. Para ello, escriba el nombre del servicio (o el nombre del recurso directamente) en la barra de búsqueda. Screenshot of the Azure portal search bar with Synapse workspaces typed in.

  2. En la lista de áreas de trabajo, escriba el nombre (o una parte del nombre) del área que desea abrir. En este ejemplo, se usa un área de trabajo denominado contosoanalytics. Screenshot from the Azure portal of the list of Synapse workspaces filtered to show those containing the name Contoso.

Creación de un grupo de Apache Spark

Importante

Runtime de Azure Synapse para Apache Spark 2.4 está en desuso y no se admite oficialmente desde septiembre de 2023. Dado que también se ha anunciado el final del soporte técnico de Spark 3.1 y Spark 3.2, recomendamos que los clientes migren a Spark 3.3.

  1. En el área de trabajo de Synapse en la que desee crear el grupo de Apache Spark, seleccione New Apache Spark pool (Nuevo grupo de Apache Spark) en la barra superior. Screenshot from the Azure portal of a Synapse workspace with a red box around the command to create a new Apache Spark pool.

  2. Escriba la siguiente información en la pestaña Datos básicos.

    Configuración Valor sugerido Descripción
    Nombre del grupo de Apache Spark Un nombre de grupo válido, como contosospark Este es el nombre que tendrá el grupo de Apache Spark.
    Tamaño del nodo Pequeño (4 vCPU/32 GB) Establézcalo en el menor tamaño para reducir los costos de este artículo de inicio rápido
    Autoscale Disabled En este inicio rápido no se necesita la escalabilidad automática
    Número de nodos 5 Use un tamaño pequeño para limitar los costos en este inicio rápido

    Screenshot from the Azure portal of the Apache Spark pool create flow - basics tab.

    Importante

    Existen limitaciones específicas para los nombres que pueden usar los grupos de Apache Spark. Los nombres solo deben contener letras o números, deben tener 15 caracteres o menos, deben comenzar con una letra, no contener palabras reservadas y ser únicos en el área de trabajo.

  3. Seleccione Siguiente: Configuración adicional y examine la configuración predeterminada. No modifique ninguna configuración predeterminada. Screenshot from the Azure portal that shows the 'Create Apache Spark pool' page with the 'Additional settings' tab selected.

  4. Seleccione Siguiente: etiquetas. Considere la posibilidad de usar las etiquetas de Azure. Por ejemplo, la etiqueta "Propietario" o "CreatedBy" para identificar quién creó el recurso y la etiqueta "Entorno" para identificar si este recurso está en Producción, Desarrollo, etc. Para más información, consulte Desarrollo de la estrategia de nomenclatura y etiquetado de los recursos de Azure. Screenshot from the Azure portal of Apache Spark pool create flow - additional settings tab.

  5. Seleccione Revisar + crear.

  6. Asegúrese de que los detalles son correctos en función de lo que se especificó anteriormente y seleccione Create (Crear). Screenshot from the Azure portal of Apache Spark pool create flow - review settings tab.

  7. Llegados a este punto, se iniciará el flujo de aprovisionamiento de recursos, que mandará una indicación al finalizar. Screenshot from the Azure portal of that shows the 'Overview' page with a 'Your deployment is complete' message displayed.

  8. Una vez completado el aprovisionamiento, al desplazarse al área de trabajo se mostrará una nueva entrada para el grupo de Apache Spark recién creado. Screenshot from the Azure portal of Apache Spark pool create flow - resource provisioning.

  9. En este momento, no hay ningún recurso en ejecución, sin cargos por Spark, y ha creado metadatos sobre las instancias de Spark que desea crear.

Limpieza de recursos

En los siguientes pasos se elimina el grupo de Apache Spark del área de trabajo.

Advertencia

Al eliminar un grupo de Apache Spark, se quitará el motor de análisis del área de trabajo. Ya no será posible conectarse al grupo de SQL y todas las consultas, canalizaciones y cuadernos que usen este grupo de Apache Spark dejarán de funcionar.

Si está seguro de que quiere eliminar el grupo de Apache Spark, siga estos pasos:

  1. Vaya al panel Grupos de Apache Spark en el área de trabajo.
  2. Seleccione el grupo de Apache Spark que se va a eliminar (en este caso, contosospark).
  3. Seleccione Eliminar. Screenshot from the Azure portal of a list of Apache Spark pools, with the recently created pool selected.
  4. Confirme la eliminación y seleccione el botón Eliminar. Screenshot from the Azure portal of the Confirmation dialog to delete the selected Apache Spark pool.
  5. Cuando el proceso se complete correctamente, el grupo de Apache Spark dejará de aparecer en los recursos del área de trabajo.