Início Rápido: Executar um trabalho de Spark no Azure Databricks usando o portal do AzureQuickstart: Run a Spark job on Azure Databricks using the Azure portal

Neste início rápido, você usará o portal do Azure para criar um workspace do Azure Databricks com um cluster do Apache Spark.In this quickstart, you use the Azure portal to create an Azure Databricks workspace with an Apache Spark cluster. Você executará um trabalho no cluster e usará gráficos personalizados para produzir relatórios em tempo real com base nos dados de segurança de Boston.You run a job on the cluster and use custom charts to produce real-time reports from Boston safety data.

Pré-requisitosPrerequisites

Entre no Portal do AzureSign in to the Azure portal

Entre no Portal do Azure.Sign in to the Azure portal.

Observação

Este tutorial não pode ser realizado usando a Assinatura de avaliação gratuita do Azure.This tutorial cannot be carried out using Azure Free Trial Subscription. Se você tiver uma conta gratuita, acesse seu perfil e altere para uma assinatura pré-paga.If you have a free account, go to your profile and change your subscription to pay-as-you-go. Para saber mais, confira Conta gratuita do Azure.For more information, see Azure free account. Em seguida, remova o limite de gastos e solicite um aumento de cota para as vCPUs da sua região.Then, remove the spending limit, and request a quota increase for vCPUs in your region. Quando você cria seu workspace do Azure Databricks, pode selecionar o tipo de preço Versão de avaliação (Premium - DBUs gratuitas por 14 dias) para conceder ao workspace acesso gratuito aos DBUs do Premium Azure Databricks por 14 dias.When you create your Azure Databricks workspace, you can select the Trial (Premium - 14-Days Free DBUs) pricing tier to give the workspace access to free Premium Azure Databricks DBUs for 14 days.

Criar um workspace do Azure DatabricksCreate an Azure Databricks workspace

Nesta seção, você deve cria um workspace do Azure Databricks usando o Portal do Azure.In this section, you create an Azure Databricks workspace using the Azure portal.

  1. No Portal do Azure, selecione Criar um recurso > Análise > Azure Databricks.In the Azure portal, select Create a resource > Analytics > Azure Databricks.

    Databricks no portal do AzureDatabricks on Azure portal

  2. Em Serviço do Azure Databricks, forneça os valores para criar um workspace do Databricks.Under Azure Databricks Service, provide the values to create a Databricks workspace.

    Criar um workspace do Azure DatabricksCreate an Azure Databricks workspace

    Forneça os seguintes valores:Provide the following values:

    PropriedadeProperty DESCRIÇÃODescription
    Nome do workspaceWorkspace name Forneça um nome para seu workspace do DatabricksProvide a name for your Databricks workspace
    AssinaturaSubscription Na lista suspensa, selecione sua assinatura do Azure.From the drop-down, select your Azure subscription.
    Grupo de recursosResource group Especifique se deseja criar um novo grupo de recursos ou usar um existente.Specify whether you want to create a new resource group or use an existing one. Um grupo de recursos é um contêiner que mantém os recursos relacionados a uma solução do Azure.A resource group is a container that holds related resources for an Azure solution. Para obter mais informações, consulte Visão geral do Grupo de Recursos do Azure.For more information, see Azure Resource Group overview.
    LocalidadeLocation Selecione Oeste dos EUA 2.Select West US 2. Para outras regiões disponíveis, consulte serviços do Azure por região.For other available regions, see Azure services available by region.
    Tipo de preçoPricing Tier Escolha entre o cluster Standard, Premium ou Avaliação.Choose between Standard, Premium, or Trial. Para saber mais sobre essas camadas, confira Página de preços do Databricks.For more information on these tiers, see Databricks pricing page.

    Selecione Fixar no painel e clique em Criar.Select Pin to dashboard and then click Create.

  3. A criação do workspace leva alguns minutos.The workspace creation takes a few minutes. Durante a criação do workspace, você pode exibir o status da implantação em Notificações.During workspace creation, you can view the deployment status in Notifications.

    Bloco de implantação do DatabricksDatabricks deployment tile

Criar um cluster Spark no DatabricksCreate a Spark cluster in Databricks

Observação

Para usar uma conta gratuita para criar o cluster do Azure Databricks, antes de criar o cluster, vá até o seu perfil e altere sua assinatura para pré-pago.To use a free account to create the Azure Databricks cluster, before creating the cluster, go to your profile and change your subscription to pay-as-you-go. Para saber mais, confira Conta gratuita do Azure.For more information, see Azure free account.

  1. No portal do Azure, vá para o workspace do Databricks que você criou e clique em Inicializar Workspace.In the Azure portal, go to the Databricks workspace that you created, and then click Launch Workspace.

  2. Você é redirecionado para o portal do Azure Databricks.You are redirected to the Azure Databricks portal. No portal, clique em Novo Cluster.From the portal, click New Cluster.

    Databricks no AzureDatabricks on Azure

  3. Na página Novo cluster, forneça os valores para criar um cluster.In the New cluster page, provide the values to create a cluster.

    Criar cluster do Databricks Spark no AzureCreate Databricks Spark cluster on Azure

    Aceite todos os outros valores padrão que não sejam o seguinte:Accept all other default values other than the following:

    • Insira um nome para o cluster.Enter a name for the cluster.

    • Neste artigo, crie um cluster com o tempo de execução 5.2.For this article, create a cluster with 5.2 runtime.

    • Verifique se você marcou a caixa de seleção Terminar depois de __ minutos de inatividade.Make sure you select the Terminate after __ minutes of inactivity checkbox. Forneça uma duração (em minutos) para encerrar o cluster caso ele não esteja sendo usado.Provide a duration (in minutes) to terminate the cluster, if the cluster is not being used.

      Selecione Criar cluster.Select Create cluster. Quando o cluster está em execução, você pode anexar blocos de notas a ele e executar trabalhos do Spark.Once the cluster is running, you can attach notebooks to the cluster and run Spark jobs.

Para obter mais informações sobre como criar clusters, consulte Criar um cluster Spark no Azure Databricks.For more information on creating clusters, see Create a Spark cluster in Azure Databricks.

Executar um trabalho SQL do SparkRun a Spark SQL job

Execute as seguintes tarefas para criar um notebook em Databricks, configurar o notebook para ler dados de Conjuntos de dados abertos do Azure e executar um trabalho SQL do Spark nos dados.Perform the following tasks to create a notebook in Databricks, configure the notebook to read data from an Azure Open Datasets, and then run a Spark SQL job on the data.

  1. No painel esquerdo, escolha Azure Databricks.In the left pane, select Azure Databricks. Nas Tarefas Comuns, escolha Novo Notebook.From the Common Tasks, select New Notebook.

    Criar bloco de notas em DatabricksCreate notebook in Databricks

  2. Na caixa de diálogo Criar Notebook, insira um nome, escolha Python como a linguagem e escolha o cluster Spark criado anteriormente.In the Create Notebook dialog box, enter a name, select Python as the language, and select the Spark cluster that you created earlier.

    Criar bloco de notas em DatabricksCreate notebook in Databricks

    Selecione Criar.Select Create.

  3. Nesta etapa, crie um DataFrame do Spark com Dados de Segurança de Boston dos Conjuntos de Dados Abertos do Azure e use o SQL para consultar os dados.In this step, create a Spark DataFrame with Boston Safety Data from Azure Open Datasets, and use SQL to query the data.

    O comando a seguir define as informações de acesso do armazenamento do Azure.The following command sets the Azure storage access information. Cole esse código do PySpark na primeira célula e use Shift+Enter para executar o código.Paste this PySpark code into the first cell and use Shift+Enter to run the code.

    blob_account_name = "azureopendatastorage"
    blob_container_name = "citydatacontainer"
    blob_relative_path = "Safety/Release/city=Boston"
    blob_sas_token = r"?st=2019-02-26T02%3A34%3A32Z&se=2119-02-27T02%3A34%3A00Z&sp=rl&sv=2018-03-28&sr=c&sig=XlJVWA7fMXCSxCKqJm8psMOh0W4h7cSYO28coRqF2fs%3D"
    

    O comando a seguir permite que o Spark leia o armazenamento de Blobs remotamente.The following command allows Spark to read from Blob storage remotely. Cole esse código do PySpark na próxima célula e use Shift+Enter para executar o código.Paste this PySpark code into the next cell and use Shift+Enter to run the code.

    wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
    spark.conf.set('fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token)
    print('Remote blob path: ' + wasbs_path)
    

    O comando a seguir cria um DataFrame.The following command creates a DataFrame. Cole esse código do PySpark na próxima célula e use Shift+Enter para executar o código.Paste this PySpark code into the next cell and use Shift+Enter to run the code.

    df = spark.read.parquet(wasbs_path)
    print('Register the DataFrame as a SQL temporary view: source')
    df.createOrReplaceTempView('source')
    
  4. Execute uma instrução SQL para retornar as 10 primeiras linhas de dados da exibição temporária chamada fonte.Run a SQL statement return the top 10 rows of data from the temporary view called source. Cole esse código do PySpark na próxima célula e use Shift+Enter para executar o código.Paste this PySpark code into the next cell and use Shift+Enter to run the code.

    print('Displaying top 10 rows: ')
    display(spark.sql('SELECT * FROM source LIMIT 10'))
    
  5. Você verá uma saída tabular como mostrado na seguinte captura de tela (somente algumas colunas são mostradas):You see a tabular output like shown in the following screenshot (only some columns are shown):

    Dados de exemploSample data

  6. Agora, crie uma representação visual desses dados para mostrar quantos eventos de segurança são relatados usando o aplicativo Citizens Connect e o City Worker App em vez de outras fontes.You now create a visual representation of this data to show how many safety events are reported using the Citizens Connect App and City Worker App instead of other sources. Na parte inferior da saída tabular, escolha o ícone de Gráfico de barras e clique em Opções de plotagem.From the bottom of the tabular output, select the Bar chart icon, and then click Plot Options.

    Criar gráfico de barrasCreate bar chart

  7. Em Personalizar plotagem, arraste e solte valores conforme mostrado na captura de tela.In Customize Plot, drag-and-drop values as shown in the screenshot.

    Personalizar o gráfico de pizzaCustomize pie chart

    • Defina Chaves como origem.Set Keys to source.

    • Defina Valores como <\id> .Set Values to <\id>.

    • Definir Agregação como CONTAGEM.Set Aggregation to COUNT.

    • Defina Tipo de exibição como Gráfico de pizza.Set Display type to Pie chart.

      Clique em Aplicar.Click Apply.

Limpar recursosClean up resources

Depois de terminar o artigo, você poderá encerrar o cluster.After you have finished the article, you can terminate the cluster. Para isso, no workspace do Azure Databricks, no painel esquerdo, selecione Clusters.To do so, from the Azure Databricks workspace, from the left pane, select Clusters. No cluster que deseja encerrar, mova o cursor sobre o botão de reticências na coluna Ações e selecione o ícone Terminar.For the cluster you want to terminate, move the cursor over the ellipsis under Actions column, and select the Terminate icon.

Parar um cluster do DatabricksStop a Databricks cluster

Se você não encerrar o cluster manualmente, ele será interrompido automaticamente, desde que você tenha selecionado a caixa de seleção Terminar depois de __ minutos de inatividade ao criar o cluster.If you do not manually terminate the cluster it will automatically stop, provided you selected the Terminate after __ minutes of inactivity checkbox while creating the cluster. Nesse caso, o cluster é interrompido automaticamente se ficar inativo durante o tempo especificado.In such a case, the cluster automatically stops, if it has been inactive for the specified time.

Próximas etapasNext steps

Neste artigo, você criou um cluster Spark no Azure Databricks e executou um trabalho do Spark usando os dados dos Conjuntos de dados abertos do Azure.In this article, you created a Spark cluster in Azure Databricks and ran a Spark job using data from Azure Open Datasets. Você também pode examinar Fontes de dados do Spark para saber como importar dados de outras fontes de dados para o Azure Databricks.You can also look at Spark data sources to learn how to import data from other data sources into Azure Databricks. Siga até o próximo artigo para saber como executar uma operação de ETL (extração, transformação e carregamento de dados) usando o Azure Databricks.Advance to the next article to learn how to perform an ETL operation (extract, transform, and load data) using Azure Databricks.