Crie seu primeiro fluxo de trabalho com um trabalho do Azure Databricks

Artigo
05/08/2024

Este artigo demonstra um trabalho do Azure Databricks que orquestra tarefas para ler e processar um conjunto de dados de exemplo. Neste início rápido, irá:

Crie um novo bloco de anotações e adicione código para recuperar um conjunto de dados de exemplo contendo nomes populares de bebês por ano.
Salve o conjunto de dados de exemplo no Unity Catalog.
Crie um novo bloco de anotações e adicione código para ler o conjunto de dados do Catálogo Unity, filtre-o por ano e exiba os resultados.
Crie um novo trabalho e configure duas tarefas usando os blocos de anotações.
Execute o trabalho e visualize os resultados.

Requisitos

Se seu espaço de trabalho estiver habilitado para Unity Catalog e Serverless Workflows estiver habilitado, por padrão, o trabalho será executado na computação Serverless. Você não precisa de permissão de criação de cluster para executar seu trabalho com computação sem servidor.

Caso contrário, você deve ter permissão de criação de cluster para criar computação de trabalho ou permissões para recursos de computação para todos os fins.

Você deve ter um volume no Catálogo Unity. Este artigo usa um volume nomeado my-volume em um esquema nomeado default dentro de um catálogo chamado main. Além disso, você deve ter as seguintes permissões no Catálogo Unity:

READ VOLUME e WRITE VOLUME, ou ALL PRIVILEGES, para o my-volume volume.
USE SCHEMA ou ALL PRIVILEGES para o default esquema.
USE CATALOG ou ALL PRIVILEGES para o main catálogo.

Para definir essas permissões, consulte os privilégios e objetos protegíveis do administrador do Databricks ou do Catálogo Unity.

Criar os blocos de notas

Recuperar e salvar dados

Para criar um bloco de anotações para recuperar o conjunto de dados de exemplo e salvá-lo no Unity Catalog:

Vá para a página inicial do Azure Databricks, clique em Novo na barra lateral e selecione Bloco de Anotações. O Databricks cria e abre um novo bloco de anotações em branco na pasta padrão. O idioma padrão é o idioma usado mais recentemente e o bloco de anotações é automaticamente anexado ao recurso de computação usado mais recentemente.
Se necessário, altere a linguagem padrão para Python.

Copie o seguinte código Python e cole-o na primeira célula do bloco de anotações.

import requests

response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
csvfile = response.content.decode('utf-8')
dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)

Ler e exibir dados filtrados

Para criar um bloco de anotações para ler e apresentar os dados para filtragem:

Vá para a página inicial do Azure Databricks, clique em Novo na barra lateral e selecione Bloco de Anotações. O Databricks cria e abre um novo bloco de anotações em branco na pasta padrão. O idioma padrão é o idioma usado mais recentemente e o bloco de anotações é automaticamente anexado ao recurso de computação usado mais recentemente.
Se necessário, altere a linguagem padrão para Python.

Copie o seguinte código Python e cole-o na primeira célula do bloco de anotações.

babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
babynames.createOrReplaceTempView("babynames_table")
years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
years.sort()
dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))

Criar um trabalho

Clique em Fluxos de trabalho na barra lateral.
Clique em .

A guia Tarefas é exibida com a caixa de diálogo Criar tarefa.
Substitua Adicione um nome para o seu trabalho... pelo nome do seu trabalho.
No campo Nome da tarefa , insira um nome para a tarefa, por exemplo, retrieve-baby-names.
No menu suspenso Tipo, selecione Bloco de Anotações.
Use o navegador de arquivos para localizar o primeiro bloco de anotações que você criou, clique no nome do bloco de anotações e clique em Confirmar.
Clique em Criar tarefa.
Clique abaixo da tarefa que você acabou de criar para adicionar outra tarefa.
No campo Nome da tarefa , insira um nome para a tarefa, por exemplo, filter-baby-names.
No menu suspenso Tipo, selecione Bloco de Anotações.
Use o navegador de arquivos para localizar o segundo bloco de anotações que você criou, clique no nome do bloco de anotações e clique em Confirmar.
Clique em Adicionar em Parâmetros. No campo Chave, digite year. No campo Valor, insira 2014.
Clique em Criar tarefa.

Executar a tarefa

Para executar o trabalho imediatamente, clique no canto superior direito. Você também pode executar o trabalho clicando na guia Execuções e clicando em Executar Agora na tabela Execuções Ativas.

Ver detalhes da execução

Clique na guia Execuções e clique no link para a execução na tabela Execuções Ativas ou na tabela Execuções Concluídas (últimos 60 dias).
Clique em qualquer uma das tarefas para ver a saída e os detalhes. Por exemplo, clique na tarefa filter-baby-names para exibir a saída e executar os detalhes da tarefa de filtro:

Executar com parâmetros diferentes

Para executar novamente o trabalho e filtrar nomes de bebês para um ano diferente:

Clique ao lado de Executar agora e selecione Executar agora com parâmetros diferentes ou clique em Executar agora com parâmetros diferentes na tabela Execuções ativas.
No campo Valor, insira 2015.
Clique em Executar.