Gerir os blocos de notas

Você pode gerir cadernos usando o UI, o CLI, e invocando a API do espaço de trabalho. Este artigo centra-se na realização de tarefas de caderno utilizando a UI. Para os outros métodos, consulte Databricks CLI e Workspace API.

Criar um bloco de notas

  1. Clique no botão Workspace  Ícone do espaço de trabalho ou no ícone home do botão inicial na  barra lateral. Faça um dos seguintes:
    • Ao lado de qualquer pasta, clique  no Menu Dropdown no lado direito do texto e selecione Criar > Notebook.

      Criar caderno

    • No Espaço de Trabalho ou numa pasta de utilizador, clique  em Down Caret e selecione Criar > Notebook.

  2. No diálogo 'Criar Caderno', insira um nome e selecione o idioma predefinido do caderno.
  3. Se houver aglomerados em execução, o Cluster apresenta-se. Selecione o cluster a que pretende fixar o caderno.
  4. Clique em Criar.

Abrir um bloco de notas

No seu espaço de trabalho, clique em um Bloco de Notas. O caminho do caderno mostra quando paira sobre o título do caderno.

Eliminar um bloco de notas

Consulte as operações de opções de pastas e objetos do espaço de trabalho para obter informações sobre como aceder ao menu do espaço de trabalho e eliminar cadernos ou outros itens no espaço de trabalho.

Copiar o caminho de um bloco de notas

Para copiar um caminho de ficheiro de portátil sem abrir o portátil, clique com o nome do portátil ou clique no  Menu Dropdown para o direito do nome do portátil e selecione Copy File Path.

Copiar o caminho de um bloco de notas

Mudar o nome de um bloco de notas

Para alterar o título de um portátil aberto, clique no título e edite inline ou clique em Arquivar > Renomear.

Controlar o acesso a um bloco de notas

Se a sua conta Azure Databricks tiver o Plano Premium Azure Databricks,pode utilizar o controlo de acesso do Espaço de Trabalho para controlar quem tem acesso a um portátil.

Formatos externos de portátil

A Azure Databricks suporta vários formatos externos de caderno:

  • Ficheiro de origem: Um ficheiro que contém apenas declarações de código fonte com a extensão .scala .py , , ou .sql .r .
  • HTML: Um caderno Azure Databricks com a extensão .html .
  • Arquivo DBC: Um arquivo Databricks.
  • Notebook IPython: Um caderno Jupyter com a extensão .ipynb .
  • RMarkdown: Um documento R Markdown com a extensão .Rmd .

Nesta secção:

Importar um caderno

Pode importar um caderno externo a partir de uma URL ou de um ficheiro.

  1. Clique no botão Workspace  Ícone do espaço de trabalho ou no ícone home do botão inicial na  barra lateral. Faça um dos seguintes:

    • Ao lado de qualquer pasta, clique no  Menu Dropdown no lado direito do texto e selecione Import.

    • No Espaço de Trabalho ou numa pasta de utilizador, clique  em Down Caret e selecione Import.

      Caderno de importação

  2. Especifique o URL ou navegue num ficheiro que contenha um formato externo suportado.

  3. Clique em Importar.

Exportar um caderno

Na barra de ferramentas do portátil, selecione File > Export e um formato.

Nota

Quando exporta um caderno como HTML, bloco de notas IPython ou arquivo (DBC), e não tiver limpo os resultados, os resultados da execução do caderno estão incluídos.

Bloco de notas e clusters

Antes de poder fazer qualquer trabalho num caderno, tem primeiro de anexar o caderno a um cluster. Esta secção descreve como anexar e separar cadernos de e para os agrupamentos e o que acontece nos bastidores quando executa estas ações.

Nesta secção:

Contextos de execução

Quando se anexa um caderno a um cluster, o Azure Databricks cria um contexto de execução. Um contexto de execução contém o estado para um ambiente REPL para cada linguagem de programação suportada: Python, R, Scala e SQL. Quando se dirige uma célula num caderno, o comando é enviado para o ambiente repl linguístico apropriado e executado.

Também pode utilizar a API REST 1.2 para criar um contexto de execução e enviar um comando para executar no contexto de execução. Da mesma forma, o comando é enviado para o ambiente repl linguístico e executado.

Um cluster tem um número máximo de contextos de execução (145). Uma vez atingido o número de contextos de execução, não é possível anexar um caderno ao cluster ou criar um novo contexto de execução.

Contextos de execução ocioso

Um contexto de execução é considerado inativo quando a última execução concluída ocorreu após um limiar definido de ocioso. A última execução concluída foi a última vez que o caderno completou a execução de comandos. O limiar de marcha lenta é o tempo que deve passar entre a última execução concluída e qualquer tentativa de desprender automaticamente o portátil. O limiar de marcha lenta por defeito é de 24 horas.

Quando um cluster atingiu o limite máximo de contexto, a Azure Databricks remove (despeja) os contextos de execução ocioso (começando com o menos utilizado) conforme necessário. Mesmo quando um contexto é removido, o caderno que usa o contexto ainda está ligado ao cluster e aparece na lista de cadernos do cluster. Os cadernos de streaming são considerados ativamente em execução, e o seu contexto nunca é despejado até que a sua execução seja interrompida. Se um contexto ocioso for despejado, a UI apresenta uma mensagem indicando que o portátil que utiliza o contexto foi desligado devido ao inativo.

Contexto de caderno despejado

Se tentar anexar um caderno ao cluster que tenha um número máximo de contextos de execução e não existam contextos ociosos (ou se o despejo automático for desativado), a UI apresenta uma mensagem a dizer que o limiar de contextos máximos de execução atual foi atingido e que o caderno permanecerá no estado de exclusão.

Caderno separado

Se força um processo, um contexto de execução ocioso ainda é considerado inativo uma vez que a execução do pedido que forfurou o processo retorna. Não é recomendado a forragem de processos separados com faíscas.

Configurar contexto auto-despejo

Pode configurar o contexto de auto-despejo definindo a propriedade Spark spark.databricks.chauffeur.enableIdleContextTracking .

  • Nos Dados 5.0 ou superiores, o despejo automático é ativado por padrão. Desativa o auto-despejo para um cluster, definindo spark.databricks.chauffeur.enableIdleContextTracking false .
  • Nos Dadosbricks 4.3, o despejo automático é desativado por padrão. Ativa o despejo automático de um cluster por definição spark.databricks.chauffeur.enableIdleContextTracking true .

Anexar um caderno a um cluster

Para anexar um caderno a um cluster:

  1. Na barra de ferramentas do portátil, clique em  Clusters Icon Detached  Cluster Dropdown .
  2. A partir do drop-down, selecione um cluster.

Importante

Um caderno anexo tem as seguintes variáveis Apache Spark definidas.

Classe Nome da Variável
SparkContext sc
SQLContext/HiveContext sqlContext
SparkSession (Faísca 2.x) spark

Não crie SparkSession SparkContext um, ou SQLContext . Fazê-lo levará a um comportamento inconsistente.

Determine a versão de Spark e Databricks Runtime

Para determinar a versão Spark do cluster a que o seu caderno está anexado, corra:

spark.version

Para determinar a versão de tempo de execução de databricks do cluster a que o seu caderno está anexado, corra:

Scala
dbutils.notebook.getContext.tags("sparkVersion")
Python
spark.conf.get("spark.databricks.clusterUsageTags.sparkVersion")

Nota

Tanto esta sparkVersion tag como a propriedade exigida pelos spark_version pontos finais da API dos Clusters e da API jobs referem-se à versão Databricks Runtime, e não à versão Spark.

Desprender um caderno de um aglomerado

  1. Na barra de ferramentas do portátil, clique em  Clusters Icon Attached Cluster  Dropdown .

  2. Selecione Desanexar.

    Caderno de desprendimento

Também pode separar os cadernos de um cluster utilizando o separador Cadernos na página de detalhes do cluster.

Quando se desmonta um caderno de um cluster, o contexto de execução é removido e todos os valores variáveis calculados são retirados do caderno.

Dica

A Azure Databricks recomenda que retire cadernos não reutilizados de um cluster. Isto liberta espaço de memória no condutor.

Ver todos os cadernos anexados a um cluster

O separador Notebooks na página de detalhes do cluster exibe todos os cadernos que estão ligados a um cluster. O separador também apresenta o estado de cada caderno anexo, juntamente com a última vez que um comando foi executado a partir do caderno.

Detalhes do cluster anexos cadernos

Agendar um caderno

Para agendar um trabalho de caderno para executar periodicamente:

  1. Na barra de ferramentas do portátil, clique na Agenda botão na parte superior direita.
  2. Clique em + Novo.
  3. Escolha o horário.
  4. Clique em OK.

Distribuir cadernos

Para permitir a distribuição fácil de cadernosAzure Databricks, o Azure Databricks suporta o arquivo Databricks, que é um pacote que pode conter uma pasta de cadernos ou um único portátil. Um arquivo Databricks é um ficheiro JAR com metadados extra e tem a extensão .dbc . Os cadernos contidos no arquivo estão num formato interno Azure Databricks.

Importar um arquivo

  1. Clique  em Down Caret ou Menu  Dropdown à direita de uma pasta ou portátil e selecione Import.
  2. Escolha O Ficheiro ou URL.
  3. Vá ou deixe cair um arquivo Databricks na zona de entrega.
  4. Clique em Importar. O arquivo é importado para Azure Databricks. Se o arquivo contiver uma pasta, a Azure Databricks recria essa pasta.

Exportar um arquivo

Clique  em Down Caret ou Menu  Dropdown à direita de uma pasta ou portátil e selecione Export > DBC Archive. A Azure Databricks descarrega um ficheiro chamado <[folder|notebook]-name>.dbc .