Inicio rápido: Ejecución de un trabajo de Spark en Azure Databricks con Azure PortalQuickstart: Run a Spark job on Azure Databricks using the Azure portal

En este inicio rápido usará Azure Portal para crear un área de trabajo de Azure Databricks con un clúster de Apache Spark.In this quickstart, you use the Azure portal to create an Azure Databricks workspace with an Apache Spark cluster. Ejecutará un trabajo en el clúster y usará gráficos personalizados para generar informes en tiempo real a partir de datos de seguridad de Boston.You run a job on the cluster and use custom charts to produce real-time reports from Boston safety data.

PrerequisitesPrerequisites

Inicio de sesión en Azure PortalSign in to the Azure portal

Inicie sesión en Azure Portal.Sign in to the Azure portal.

Nota

Este tutorial no puede llevarse a cabo mediante una suscripción de evaluación gratuita de Azure.This tutorial cannot be carried out using Azure Free Trial Subscription. Si tiene una cuenta gratuita, vaya a su perfil y cambiar la suscripción a pago por uso.If you have a free account, go to your profile and change your subscription to pay-as-you-go. Para más información consulte el sitio de cuentas gratuitas de Azure.For more information, see Azure free account. Después, quite el límite de gasto y solicite un aumento de la cuota para las vCPU de su región.Then, remove the spending limit, and request a quota increase for vCPUs in your region. Cuando crea su área de trabajo de Azure Databricks, puede seleccionar el plan de tarifa de la Trial (Premium - 14-Days Free DBUs) para que el área de trabajo acceda a las DBU Premium de Azure Databricks gratis durante 14 días.When you create your Azure Databricks workspace, you can select the Trial (Premium - 14-Days Free DBUs) pricing tier to give the workspace access to free Premium Azure Databricks DBUs for 14 days.

Creación de un área de trabajo de Azure DatabricksCreate an Azure Databricks workspace

En esta sección, creará un área de trabajo de Azure Databricks mediante Azure Portal.In this section, you create an Azure Databricks workspace using the Azure portal.

  1. En Azure Portal, seleccione Crear un recurso > Análisis > Azure Databricks.In the Azure portal, select Create a resource > Analytics > Azure Databricks.

    Databricks en Azure PortalDatabricks on Azure portal

  2. En Azure Databricks Service, proporcione los valores para crear un área de trabajo de Databricks.Under Azure Databricks Service, provide the values to create a Databricks workspace.

    Creación de un área de trabajo de Azure DatabricksCreate an Azure Databricks workspace

    Proporcione los valores siguientes:Provide the following values:

    PropiedadProperty DescripciónDescription
    Workspace name (Nombre del área de trabajo)Workspace name Proporcione un nombre para el área de trabajo de DatabricksProvide a name for your Databricks workspace
    SuscripciónSubscription En el cuadro desplegable, seleccione la suscripción de Azure.From the drop-down, select your Azure subscription.
    Grupos de recursosResource group Especifique si desea crear un nuevo grupo de recursos o utilizar uno existente.Specify whether you want to create a new resource group or use an existing one. Un grupo de recursos es un contenedor que almacena los recursos relacionados con una solución de Azure.A resource group is a container that holds related resources for an Azure solution. Para más información, consulte Información general del grupo de recursos de Azure.For more information, see Azure Resource Group overview.
    UbicaciónLocation Seleccione Oeste de EE. UU. 2.Select West US 2. Para otras regiones disponibles, consulte Productos disponibles por región.For other available regions, see Azure services available by region.
    Plan de tarifaPricing Tier Elija entre Estándar, Premium o Evaluación gratuita.Choose between Standard, Premium, or Trial. Para más información sobre estos planes, consulte la página de precios de Databricks.For more information on these tiers, see Databricks pricing page.
  3. Seleccione Revisar y crear y, a continuación, Crear.Select Review + Create, and then Create. Se tarda unos minutos en crear el área de trabajo.The workspace creation takes a few minutes. Durante la creación del área de trabajo, puede ver el estado de implementación en Notificaciones.During workspace creation, you can view the deployment status in Notifications.

    Icono de implementación de DatabricksDatabricks deployment tile

Creación de un clúster de Spark en DatabricksCreate a Spark cluster in Databricks

Nota

Para usar una cuenta gratuita para crear el clúster de Azure Databricks, antes de crear el clúster, vaya a su perfil y cambie su suscripción a pago por uso.To use a free account to create the Azure Databricks cluster, before creating the cluster, go to your profile and change your subscription to pay-as-you-go. Para más información consulte el sitio de cuentas gratuitas de Azure.For more information, see Azure free account.

  1. En Azure Portal, vaya al área de trabajo de Databricks que ha creado y, después, haga clic en Launch Workspace (Iniciar área de trabajo).In the Azure portal, go to the Databricks workspace that you created, and then click Launch Workspace.

  2. Se le redirigirá al portal de Azure Databricks.You are redirected to the Azure Databricks portal. En el portal, haga clic en Nuevo clúster.From the portal, click New Cluster.

    Databricks en AzureDatabricks on Azure

  3. En la página Nuevo clúster, proporcione los valores para crear un clúster.In the New cluster page, provide the values to create a cluster.

    Creación de clústeres de Spark para Databricks en AzureCreate Databricks Spark cluster on Azure

    Acepte los demás valores predeterminados, salvo los siguientes:Accept all other default values other than the following:

    • Escriba un nombre para el clúster.Enter a name for the cluster.

    • Para este artículo, cree un clúster con el entorno de ejecución 5.3.For this article, create a cluster with 5.3 runtime.

    • Asegúrese de que selecciona la casilla Terminate after __ minutes of inactivity (Terminar después de __ minutos de inactividad).Make sure you select the Terminate after __ minutes of inactivity checkbox. Proporcione una duración (en minutos) para terminar el clúster, si este no se usa.Provide a duration (in minutes) to terminate the cluster, if the cluster is not being used.

      Seleccione Create cluster (Crear clúster).Select Create cluster. Una vez que el clúster se está ejecutando, puede asociarle notebooks y ejecutar trabajos de Spark.Once the cluster is running, you can attach notebooks to the cluster and run Spark jobs.

Para obtener más información sobre la creación de clústeres, consulte Create a Spark cluster in Azure Databricks (Creación de un clúster de Spark en Azure Databricks).For more information on creating clusters, see Create a Spark cluster in Azure Databricks.

Ejecución de un trabajo de Spark SQLRun a Spark SQL job

Realice las tareas siguientes para crear un cuaderno en Databricks, configúrelo para leer los datos desde una instancia de Azure Open Datasets y, luego, ejecute un trabajo de Spark SQL sobre los datos.Perform the following tasks to create a notebook in Databricks, configure the notebook to read data from an Azure Open Datasets, and then run a Spark SQL job on the data.

  1. En el panel izquierdo, seleccione Azure Databricks.In the left pane, select Azure Databricks. En Common Tasks (Tareas comunes), seleccione New Notebook (Nuevo cuaderno).From the Common Tasks, select New Notebook.

    Creación de un cuaderno en DatabricksCreate notebook in Databricks

  2. En el cuadro de diálogo Create Notebook (Crear cuaderno), seleccione Python como lenguaje y seleccione el clúster de Spark que creó anteriormente.In the Create Notebook dialog box, enter a name, select Python as the language, and select the Spark cluster that you created earlier.

    Creación de un cuaderno en DatabricksCreate notebook in Databricks

    Seleccione Crear.Select Create.

  3. En este paso, creará un DataFrame de Spark con los datos de seguridad de Boston de Azure Open Datasets y usará SQL para consultar los datos.In this step, create a Spark DataFrame with Boston Safety Data from Azure Open Datasets, and use SQL to query the data.

    El siguiente comando establece la información de acceso de almacenamiento de Azure.The following command sets the Azure storage access information. Pegue este código de PySpark en la primera celda y use Mayús + Intro para ejecutarlo.Paste this PySpark code into the first cell and use Shift+Enter to run the code.

    blob_account_name = "azureopendatastorage"
    blob_container_name = "citydatacontainer"
    blob_relative_path = "Safety/Release/city=Boston"
    blob_sas_token = r"?st=2019-02-26T02%3A34%3A32Z&se=2119-02-27T02%3A34%3A00Z&sp=rl&sv=2018-03-28&sr=c&sig=XlJVWA7fMXCSxCKqJm8psMOh0W4h7cSYO28coRqF2fs%3D"
    

    El comando siguiente permite que Spark lea desde Blob Storage de forma remota.The following command allows Spark to read from Blob storage remotely. Pegue este código de PySpark en la siguiente celda y use Mayús + Intro para ejecutarlo.Paste this PySpark code into the next cell and use Shift+Enter to run the code.

    wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
    spark.conf.set('fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token)
    print('Remote blob path: ' + wasbs_path)
    

    El siguiente comando crea un DataFrame.The following command creates a DataFrame. Pegue este código de PySpark en la siguiente celda y use Mayús + Intro para ejecutarlo.Paste this PySpark code into the next cell and use Shift+Enter to run the code.

    df = spark.read.parquet(wasbs_path)
    print('Register the DataFrame as a SQL temporary view: source')
    df.createOrReplaceTempView('source')
    
  4. Ejecute una instrucción SQL para devolver las 10 primeras filas de datos de la vista temporal llamada source.Run a SQL statement return the top 10 rows of data from the temporary view called source. Pegue este código de PySpark en la siguiente celda y use Mayús + Intro para ejecutarlo.Paste this PySpark code into the next cell and use Shift+Enter to run the code.

    print('Displaying top 10 rows: ')
    display(spark.sql('SELECT * FROM source LIMIT 10'))
    
  5. Verá un resultado tabular como se muestra en la siguiente captura de pantalla (solo se ven algunas columnas):You see a tabular output like shown in the following screenshot (only some columns are shown):

    Datos de ejemploSample data

  6. Ahora, creará una representación visual de estos datos para mostrar cuántos eventos de seguridad se generan mediante Citizens Connect App y City Worker App en lugar de otros orígenes.You now create a visual representation of this data to show how many safety events are reported using the Citizens Connect App and City Worker App instead of other sources. En la parte inferior de la salida tabular, haga clic en el icono Bar chart (Gráfico de barras) y, luego, en Plot Options (Opciones de trazado).From the bottom of the tabular output, select the Bar chart icon, and then click Plot Options.

    Creación de un gráfico de barrasCreate bar chart

  7. En Personalizar trazado, arrastre y coloque los valores como se muestra en la captura de pantalla.In Customize Plot, drag-and-drop values as shown in the screenshot.

    Personalización del gráfico circularCustomize pie chart

    • Establezca Keys (Claves) en source.Set Keys to source.

    • Establezca Values (Valores) en <\id> .Set Values to <\id>.

    • Establezca Agregación en COUNT (recuento).Set Aggregation to COUNT.

    • Establezca Display type (Tipo de visualización) en Pie chart (Gráfico de barras).Set Display type to Pie chart.

      Haga clic en Aplicar.Click Apply.

Limpieza de recursosClean up resources

Cuando haya terminado el artículo, puede finalizar el clúster.After you have finished the article, you can terminate the cluster. Para ello, desde el área de trabajo de Azure Databricks, en el panel izquierdo, seleccione Clusters (Clústeres).To do so, from the Azure Databricks workspace, from the left pane, select Clusters. En el clúster que desea finalizar, mueva el cursor sobre el botón de puntos suspensivos en la columna Actions (Acciones) y seleccione el icono Terminate (Finalizar).For the cluster you want to terminate, move the cursor over the ellipsis under Actions column, and select the Terminate icon.

Detención de un clúster de DatabricksStop a Databricks cluster

Si no finaliza manualmente el clúster, este se detendrá automáticamente si seleccionó la casilla Terminate after __ minutes of inactivity (Finalizar después de __ minutos de inactividad) al crear el clúster.If you do not manually terminate the cluster it will automatically stop, provided you selected the Terminate after __ minutes of inactivity checkbox while creating the cluster. En tal caso, el clúster se detiene automáticamente si ha estado inactivo durante el tiempo especificado.In such a case, the cluster automatically stops, if it has been inactive for the specified time.

Pasos siguientesNext steps

En este artículo, creó un clúster de Spark en Azure Databricks y ejecutó un trabajo de Spark mediante datos de Azure Open Datasets.In this article, you created a Spark cluster in Azure Databricks and ran a Spark job using data from Azure Open Datasets. También puede mirar Spark data sources (Orígenes de datos de Spark) para aprender a importar datos desde otros orígenes de datos en Azure Databricks.You can also look at Spark data sources to learn how to import data from other data sources into Azure Databricks. Vaya al siguiente artículo para aprender cómo realizar una operación ETL (extraer, transformar y cargar datos) mediante Azure Databricks.Advance to the next article to learn how to perform an ETL operation (extract, transform, and load data) using Azure Databricks.