Inicio rápido: Creación de un clúster de Apache Spark en Azure HDInsight mediante Azure PortalQuickstart: Create Apache Spark cluster in Azure HDInsight using Azure portal

Aprenda cómo crear clústeres de Apache Spark en Azure HDInsight y cómo ejecutar consultas de Spark SQL en tablas de Hive.Learn how to create Apache Spark cluster in Azure HDInsight, and how to run Spark SQL queries against Hive tables. Apache Spark permite el análisis rápido de datos y procesamiento de clústeres con el procesamiento en memoria.Apache Spark enables fast data analytics and cluster computing using in-memory processing. Para información sobre Spark en HDInsight, consulte Introducción a Apache Spark en Azure HDInsight.For information on Spark on HDInsight, see Overview: Apache Spark on Azure HDInsight.

En esta guía de inicio rápido, usará Azure Portal para crear un clúster de Spark de HDInsight.In this quickstart, you use the Azure portal to create an HDInsight Spark cluster. El clúster usa Azure Storage Blob como almacenamiento de clústeres.The cluster uses Azure Storage Blobs as the cluster storage. Para más información sobre el uso de Data Lake Storage Gen2, consulte Guía de inicio rápido: Configuración de clústeres en HDInsight.For more information on using Data Lake Storage Gen2, see Quickstart: Set up clusters in HDInsight.

Importante

La facturación de los clústeres de HDInsight se prorratea por minuto, tanto si se usan como si no.Billing for HDInsight clusters is prorated per minute, whether you are using them or not. Por consiguiente, es aconsejable eliminar el clúster al terminar de usarlo.Be sure to delete your cluster after you have finished using it. Para obtener más información, consulte la sección Limpieza de recursos de este artículo.For more information, see the Clean up resources section of this article.

Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.If you don't have an Azure subscription, create a free account before you begin.

Creación de un clúster de Spark en HDInsightCreate an HDInsight Spark cluster

  1. En Azure Portal, seleccione Crear un recurso > Analytics > HDInsight.In the Azure portal, select Create a resource > Analytics > HDInsight.

    HDInsight en Azure PortalHDInsight on Azure portal

  2. En Datos básicos, proporcione los valores siguientes:Under Basics, provide the following values:

    PropiedadProperty DescripciónDescription
    Nombre del clústerCluster name Asigne un nombre al clúster de Spark de HDInsight.Give a name to your HDInsight Spark cluster. El nombre del clúster usado para esta guía de inicio rápido es myspark20180403.The cluster name used for this quickstart is myspark20180403.
    SuscripciónSubscription En el menú desplegable, seleccione una suscripción de Azure usada para este clúster.From the drop-down, select an Azure subscription used for this cluster. La suscripción usada para este inicio rápido es <suscripción de Azure.The subscription used for this quickstart is <Azure subscription.
    Tipo de clústerCluster type Expanda el elemento y, a continuación, seleccione Spark como tipo de clúster. Especifique la versión de clúster de Spark.Expand the item, and then select Spark as the cluster type, and specify the Spark cluster version.
    Select HDInsight cluster type
    Nombre de usuario de inicio de sesión del clústerCluster login username Escriba el nombre de usuario de inicio de sesión del clúster.Enter the cluster login username. El nombre predeterminado es admin. Use esta cuenta para iniciar sesión en Jupyter Notebook más adelante en la guía de inicio rápido.The default name is admin. You use this account to login in to the Jupyter notebook later in the quickstart.
    Contraseña de inicio de sesión del clústerCluster login password Escriba la contraseña de inicio de sesión del clúster.Enter the cluster login password.
    Nombre de usuario de Secure Shell (SSH)Secure Shell (SSH) username Escriba el nombre de usuario de SSH.Enter the SSH username. El nombre de usuario de SSH usado para este inicio rápido es sshuser.The SSH username used for this quickstart is sshuser. De manera predeterminada, esta cuenta comparte la contraseña con la cuenta de nombre de usuario de inicio de sesión del clúster.By default, this account shares the same password as the Cluster Login username account.
    Grupos de recursosResource group Especifique si desea crear un nuevo grupo de recursos o utilizar uno existente.Specify whether you want to create a new resource group or use an existing one. Un grupo de recursos es un contenedor que almacena los recursos relacionados con una solución de Azure.A resource group is a container that holds related resources for an Azure solution. El nombre del grupo de recursos usado para este inicio rápido es myspark20180403rg.The resource group name used for this quickstart is myspark20180403rg.
    UbicaciónLocation Seleccione una ubicación para el grupo de recursos.Select a location for the resource group. La plantilla utiliza esta ubicación para crear el clúster, así como para el almacenamiento de clúster predeterminado.The template uses this location for creating the cluster as well as for the default cluster storage. La ubicación usada para esta guía de inicio rápido es Este de EE. UU. 2.The location used for this quickstart is East US 2.

    Crear configuraciones básicas de clústeres de Spark de HDInsightCreate HDInsight Spark cluster basic configurations

    Seleccione Siguiente para ir a la página Almacenamiento.Select Next to continue to the Storage page.

  3. En Almacenamiento, proporcione los valores siguientes:Under Storage, provide the following values:

    • Seleccionar una cuenta de almacenamiento: seleccione Crear nuevo y, a continuación, asigne un nombre a la nueva cuenta de almacenamiento.Select a Storage account: select Create new, and then give a name to the new storage account. El nombre de la cuenta de almacenamiento usada para este inicio rápido es myspark20180403store.The storage account name used for this quickstart is myspark20180403store.

      Crear configuraciones de almacenamiento de clústeres de Spark de HDInsightCreate HDInsight Spark cluster storage configurations

      Nota

      En la captura de pantalla, muestra Seleccionar existente.On the screenshot, it shows Select existing. El vínculo cambia entre Crear nuevo y Seleccionar existente.The link toggles between Create new and Select existing.

      El contenedor predeterminado tiene un nombre predeterminado.The Default container has a default name. Si quiere, puede cambiar el nombre.You can change the name if you want.

      Seleccione Siguiente para ir a la página Resumen.Select Next to continue to the Summary page.

  4. En Resumen, seleccione Crear.On Summary, select Create. La creación del clúster tarda aproximadamente 20 minutos.It takes about 20 minutes to create the cluster. El clúster debe crearse para poder pasar a la siguiente sesión.The cluster must be created before you can proceed to the next session.

Si surge un problema con la creación de clústeres de HDInsight, podría deberse a que no tiene los permisos adecuados para hacerlo.If you run into an issue with creating HDInsight clusters, it could be that you do not have the right permissions to do so. Para más información, consulte Requisitos de control de acceso.For more information, see Access control requirements.

Creación de un cuaderno de JupyterCreate a Jupyter notebook

Jupyter Notebook es un entorno de cuaderno interactivo que admite varios lenguajes de programación.Jupyter Notebook is an interactive notebook environment that supports various programming languages. El cuaderno le permite interactuar con los datos, combinar código con el texto de marcado y realizar visualizaciones básicas.The notebook allows you to interact with your data, combine code with markdown text and perform simple visualizations.

  1. Abra Azure Portal.Open the Azure portal.

  2. Seleccione Clústeres de HDInsight y, a continuación, seleccione el clúster que creó.Select HDInsight clusters, and then select the cluster you created.

    abrir un clúster de HDInsight en Azure Portal

  3. En el portal, seleccione Paneles de clúster y, a continuación, Jupyter Notebook.From the portal, select Cluster dashboards, and then select Jupyter Notebook. Cuando se le solicite, escriba las credenciales de inicio de sesión del clúster.If prompted, enter the cluster login credentials for the cluster.

    Apertura de un cuaderno de Jupyter Notebook para ejecutar consultas Spark SQL interactivasOpen Jupyter Notebook to run interactive Spark SQL query

  4. Seleccione Nuevo > PySpark para crear un cuaderno.Select New > PySpark to create a notebook.

    Creación de un cuaderno de Jupyter Notebook para ejecutar consultas Spark SQL interactivasCreate a Jupyter Notebook to run interactive Spark SQL query

    Se crea y se abre un nuevo cuaderno con el nombre Untitled(Untitled.pynb).A new notebook is created and opened with the name Untitled(Untitled.pynb).

Ejecución de instrucciones de Spark SQLRun Spark SQL statements

SQL (Lenguaje de consulta estructurado) es el lenguaje más común y ampliamente utilizado en la consulta y definición de datos.SQL (Structured Query Language) is the most common and widely used language for querying and defining data. Spark SQL funciona como una extensión de Apache Spark para procesar datos estructurados, mediante la conocida sintaxis de SQL.Spark SQL functions as an extension to Apache Spark for processing structured data, using the familiar SQL syntax.

  1. Compruebe que el kernel esté preparado.Verify the kernel is ready. El kernel está preparado cuando aparece un círculo vacío junto al nombre del kernel en el cuaderno.The kernel is ready when you see a hollow circle next to the kernel name in the notebook. Un círculo sólido indica que el kernel está ocupado.Solid circle denotes that the kernel is busy.

    Consulta de Hive en HDInsight SparkHive query in HDInsight Spark

    Al iniciar el cuaderno por primera vez, el kernel realiza tareas en segundo plano.When you start the notebook for the first time, the kernel performs some tasks in the background. Espere a que el kernel esté preparado.Wait for the kernel to be ready.

  2. Pegue el código siguiente en una celda vacía y presione MAYÚS + ENTRAR para ejecutar el código.Paste the following code in an empty cell, and then press SHIFT + ENTER to run the code. El comando muestra las tablas Hive del clúster:The command lists the Hive tables on the cluster:

    %%sql
    SHOW TABLES
    

    Cuando se utiliza un cuaderno de Jupyter Notebook con el clúster de Spark en HDInsight, obtiene un valor de sqlContext preestablecido que puede usar para ejecutar consultas de Hive con Spark SQL.When you use a Jupyter Notebook with your HDInsight Spark cluster, you get a preset sqlContext that you can use to run Hive queries using Spark SQL. %%sql indica a Jupyter Notebook que use el valor de sqlContext preestablecido para ejecutar la consulta de Hive.%%sql tells Jupyter Notebook to use the preset sqlContext to run the Hive query. La consulta recupera las 10 primeras filas de una tabla de Hive (hivesampletable) que se incluye de forma predeterminada en todos los clústeres de HDInsight.The query retrieves the top 10 rows from a Hive table (hivesampletable) that comes with all HDInsight clusters by default. Se tardan unos 30 segundos en obtener los resultados.It takes about 30 seconds to get the results. El resultado tendrá una apariencia similar a la siguiente:The output looks like:

    Consulta de Hive en HDInsight SparkHive query in HDInsight Spark

    Cada vez que se ejecuta una consulta en Jupyter, el título de la ventana del explorador web muestra el estado (Busy) (Ocupado) junto con el título del cuaderno.Every time you run a query in Jupyter, your web browser window title shows a (Busy) status along with the notebook title. También verá un círculo sólido junto al texto PySpark en la esquina superior derecha.You also see a solid circle next to the PySpark text in the top-right corner.

  3. Ejecute otra consulta para ver los datos en hivesampletable.Run another query to see the data in hivesampletable.

    %%sql
    SELECT * FROM hivesampletable LIMIT 10
    

    Debe actualizar la pantalla para mostrar la salida de la consulta.The screen shall refresh to show the query output.

    Consulta de Hive en HDInsight SparkHive query output in HDInsight Spark

  4. En el menú File (Archivo) del cuaderno, seleccione Close and Halt (Cerrar y detener).From the File menu on the notebook, select Close and Halt. Al cerrar el cuaderno, se liberan los recursos de clúster.Shutting down the notebook releases the cluster resources.

Limpieza de recursosClean up resources

HDInsight guarda los datos en Azure Storage o Azure Data Lake Storage, por lo que puede eliminar de manera segura un clúster si no se está usando.HDInsight saves your data in Azure Storage or Azure Data Lake Storage, so you can safely delete a cluster when it is not in use. También se le cobrará por un clúster de HDInsight aunque no se esté usando.You are also charged for an HDInsight cluster, even when it is not in use. Como en muchas ocasiones los cargos por el clúster son mucho más elevados que los cargos por el almacenamiento, desde el punto de vista económico tiene sentido eliminar clústeres cuando no se estén usando.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they are not in use. Si tiene previsto pasar inmediatamente al tutorial de Pasos siguientes, es aconsejable que no elimine el clúster.If you plan to work on the tutorial listed in Next steps immediately, you might want to keep the cluster.

Vuelva a Azure Portal y seleccione Eliminar.Switch back to the Azure portal, and select Delete.

Eliminación de un clúster de HDInsightDelete an HDInsight cluster

También puede seleccionar el nombre del grupo de recursos para abrir la página del grupo de recursos y, a continuación, seleccionar Eliminar grupo de recursos.You can also select the resource group name to open the resource group page, and then select Delete resource group. Al eliminar el grupo de recursos, se eliminan tanto el clúster de HDInsight Spark como la cuenta de almacenamiento predeterminada.By deleting the resource group, you delete both the HDInsight Spark cluster, and the default storage account.

Pasos siguientesNext steps

En esta guía de inicio rápido, ha aprendido a crear un clúster de HDInsight Spark y a ejecutar una consulta básica de Spark SQL.In this quickstart, you learned how to create an HDInsight Spark cluster and run a basic Spark SQL query. Continúe hasta el siguiente tutorial para obtener información sobre cómo usar un clúster de Spark de HDInsight para ejecutar consultas interactivas en datos de ejemplo.Advance to the next tutorial to learn how to use an HDInsight Spark cluster to run interactive queries on sample data.