Utilizar os blocos de notas

Um caderno é uma coleção de células runbutáveis (comandos). Quando se usa um caderno, está-se principalmente a desenvolver e a executar células.

Todas as tarefas do portátil são suportadas por ações de UI, mas também pode executar muitas tarefas usando atalhos de teclado. Alternar o ecrã de atalho clicando no Ícone de teclado .

Atalhos de teclado

Desenvolver cadernos

Esta secção descreve como desenvolver células de caderno e navegar em torno de um caderno.

Nesta secção:

Sobre cadernos

Um caderno tem uma barra de ferramentas que permite gerir o caderno e realizar ações dentro do caderno:

Barra de ferramentas do bloco de notas

e uma ou mais células (ou comandos) que pode executar:

Células de caderno

Na extrema direita de uma célula, as ações celulares  Ações celulares , contém três menus: Executar, Dashboard, e Editar:

Ícone de execuçãoDashboardEditar

e duas ações: Esconder Minimizar celular e Eliminar Eliminar ícone.

Adicione uma célula

Para adicionar uma célula, rato sobre uma célula na parte superior ou inferior e clique no  ícone Add Cell, ou aceda ao menu de células portátil na extrema direita, clique em  Down Caret , e selecione Add Cell Above ou Add Cell Below.

Apagar uma célula

Vá ao menu de ações celulares Ações celulares na extrema-direita e clique Eliminar ícone (Excluir).

Quando eliminar uma célula, por predefinição, apague os visores de confirmação. Para desativar futuros diálogos de confirmação, selecione a caixa de verificação "Não voltar a mostrar" e clique em Confirmar. Também pode alternar a definição de diálogo de confirmação com a opção de confirmação de exclusão de comando por turnos na opção de> de utilizador do ícone da conta >  definições de portátil.

Para restaurar as células eliminadas, selecione Editar > desfazer as células ou utilizar o Z atalho de teclado ().

Corte uma célula

Vá ao menu de ações  celulares As ações celulares na extrema direita, clique em  Down Caret e selecione Cut Cell.

Também pode utilizar o X atalho do teclado.

Para restaurar as células eliminadas, selecione editar > desfazer células de corte ou utilize o Z atalho de teclado ().

Selecione várias células ou todas as células

Pode selecionar as células de portátil adjacentes utilizando shift + up ou down para a célula anterior e seguinte, respectivamente. As células multi-selecionadas podem ser copiadas, cortadas, eliminadas e coladas.

Para selecionar todas as células, selecione Editar > Selecione Todas as Células ou utilize o atalho do modo de comando Cmd+A.

Língua padrão

O idioma predefinido para cada célula é mostrado numa ligação ao lado do nome do portátil. No caderno seguinte, o idioma predefinido é SQL.

Língua padrão do portátil

Para alterar o idioma predefinido:

  1. Clique em ( ) link. O diálogo do linguagem por defeito de alteração aparece.

    Alterar linguagem predefinida

  2. Selecione o novo idioma a partir do drop-down do idioma predefinido.

  3. Clique em Alterar.

  4. Para garantir que os comandos existentes continuem a funcionar, os comandos da língua predefinida anterior são automaticamente pré-fixados com um comando mágico de linguagem.

Misturar línguas

Pode sobrepor-se à linguagem padrão especificando o comando mágico da linguagem %<language> no início de uma célula. Os comandos mágicos suportados são: %python %r , , e %scala %sql .

Nota

Quando invoca um comando mágico de linguagem, o comando é enviado para o REPL no contexto de execução do caderno. As variáveis definidas numa língua (e, portanto, no REPL para essa língua) não estão disponíveis no REPL de outra língua. Os REPLs só podem partilhar o estado através de recursos externos, tais como ficheiros em DBFS ou objetos no armazenamento de objetos.

Os cadernos também suportam alguns comandos de magia auxiliar:

  • %sh: Permite-lhe executar código de concha no seu caderno. Para falhar na célula se o comando da concha tiver um estado de saída não zero, adicione a -e opção. Este comando só funciona com o condutor da Faísca Apache, e não com os trabalhadores. Para executar um comando de concha em todos os nós, use um script init.
  • %fs: Permite-lhe utilizar dbutils comandos de sistema de ficheiros. Ver Databricks CLI.
  • %md: Permite-lhe incluir vários tipos de documentação, incluindo texto, imagens e fórmulas e equações matemáticas. Veja a próxima secção.

Incluir documentação

Para incluir documentação num caderno, pode utilizar o %md comando mágico para identificar a marcação markdown. A marcação de markdown incluída é renderizada em HTML. Por exemplo, este corte de Markdown contém marcação para uma rubrica de nível um:

%md # Hello This is a Title

É renderizado como um título HTML:

Título html do portátil

Cabeçalhos minimizáveis

As células que aparecem depois de células que contêm posições de Markdown podem ser colapsadas na célula de posição. A imagem a seguir mostra um título de nível um chamado Cabeça 1 com as duas células seguintes colapsaram nele.

Células colapsadas

Para expandir e colapsar títulos, clique no + e - .

Consulte também o Hide e mostre o conteúdo das células.

Pode ligar-se a outros cadernos ou pastas em células Markdown utilizando caminhos relativos. Especificar o href atributo de uma etiqueta de âncora como o caminho relativo, começando com um $ e, em seguida, seguir o mesmo padrão que nos sistemas de ficheiros Unix:

%md
<a href="$./myNotebook">Link to notebook in same folder as current notebook</a>
<a href="$../myFolder">Link to folder in parent folder of current notebook</a>
<a href="$./myFolder2/myNotebook2">Link to nested notebook</a>

Mostrar imagens

Para visualizar imagens armazenadas na Loja de Ficheiros,utilize a sintaxe:

%md
![test](files/image.png)

Por exemplo, suponha que tem o ficheiro de imagem do logotipo databricks na Loja de Ficheiros:

dbfs ls dbfs:/FileStore/
databricks-logo-mobile.png

Quando se inclui o seguinte código numa célula Markdown:

Imagem na célula De Markdown

a imagem é renderizada na célula:

Imagem renderizada

Exibir equações matemáticas

Os cadernos suportam o KaTeX para exibir fórmulas e equações matemáticas. Por exemplo,

%md
\\(c = \\pm\\sqrt{a^2 + b^2} \\)

\\(A{_i}{_j}=B{_i}{_j}\\)

$$c = \\pm\\sqrt{a^2 + b^2}$$

\\[A{_i}{_j}=B{_i}{_j}\\]

torna:

Equação renderizada 1

e

%md
\\( f(\beta)= -Y_t^T X_t \beta + \sum log( 1+{e}^{X_t\bullet\beta}) + \frac{1}{2}\delta^t S_t^{-1}\delta\\)

where \\(\delta=(\beta - \mu_{t-1})\\)

torna:

Equação renderizada 2

Incluir HTML

Pode incluir HTML num bloco de notas utilizando a função displayHTML . Consulte HTML, D3 e SVG em cadernos para um exemplo de como fazê-lo.

Nota

O displayHTML iframe é servido a partir do domínio databricksusercontent.com e a caixa de areia iframe inclui o allow-same-origin atributo. databricksusercontent.com tem de ser acessível a partir do browser. Se a sua rede empresarial o bloquear, terá de ser adicionado a uma lista de permissões.

Comentários de comando

Pode ter discussões com colaboradores usando comentários de comando.

Para alternar a barra lateral de comentários, clique no botão Comentários no topo direito de um caderno.

Comentários de caderno toggle

Para adicionar um comentário a um comando:

  1. Realce o texto de comando e clique na bolha de comentário:

    Abrir comentários

  2. Adicione o seu comentário e clique em Comentar.

    Adicionar comentários

Para editar, excluir ou responder a um comentário, clique no comentário e escolha uma ação.

Editar comentário

Alterar o ecrã da célula

Existem três opções de exibição para cadernos:

  • Visão padrão: os resultados são apresentados imediatamente após as células de código
  • Apenas resultados: apenas os resultados são apresentados
  • Lado a lado: as células de código e de resultados são exibidas lado a lado, com resultados à direita

Ir ao menu Ver Ver Menu para selecionar a sua opção de exibição.

vista lado a lado

Mostrar linha e números de comando

Para mostrar números de linha ou números de comando, vá ao  menu Ver Menu e selecione Números de linha mostrar ou mostrar números de comando. Uma vez exibidos, pode escondê-los novamente no mesmo menu. Também pode ativar números de linha com o atalho do teclado Control+L.

Mostrar números de linha ou de comando através do menu de visualização

Números de linha e de comando habilitados no caderno

Se ativar números de linha ou de comando, o Databricks guarda a sua preferência e mostra-os em todos os seus outros cadernos para esse navegador.

Os números de comando acima das células ligam-se a esse comando específico. Se clicar no número de comando de uma célula, atualiza o URL para ser ancorado a esse comando. Se pretender ligar a um comando específico no seu caderno, clique no número de comando e escolha o endereço de link de cópia.

Encontrar e substituir texto

Para encontrar e substituir o texto dentro de um caderno, selecione Editar > Localizar e Substituir. O jogo atual é realçado em laranja e todos os outros jogos são destacados em amarelo.

Texto correspondente

Para substituir a correspondência atual, clique em Substituir. Para substituir todos os fósforos no bloco de notas, clique em Substituir Tudo.

Para mover entre fósforos, clique nos botões Prev e Next. Também pode pressionar o shift+enter e entrar para ir aos jogos anteriores e próximos, respectivamente.

Para fechar a ferramenta de encontrar e substituir, clique em  Eliminar Ícone ou prima esc.

Preenchimento Automático

Pode utilizar a Azure Databricks para completar automaticamente segmentos de código à medida que os digita. A Azure Databricks suporta dois tipos de autocomplete: local e servidor.

O autocompleto local completa palavras que são definidas no caderno. O servidor termina automaticamente o cluster para tipos, classes e objetos definidos, bem como bases de dados SQL e nomes de tabelas. Para ativar o servidor de forma automática, prenda o seu caderno a um cluster e execute todas as células que definem objetos completos.

Importante

O servidor autocompleto em cadernos R é bloqueado durante a execução do comando.

Para ativar o preto automático, prima a guia depois de introduzir um objeto completamenteável. Por exemplo, depois de definir e executar as células que contêm as definições de MyClass instance e, os métodos de instance são completamente completos, e uma lista de conclusões válidas aparece quando pressiona o Separador.

Desativar automaticamente

A conclusão do tipo e a base de dados SQL e o trabalho de conclusão do nome da tabela funcionam da mesma forma.

Conclusão do tipo — — Conclusão SQL

Em Databricks Runtime 7.4 e superior, pode exibir sugestões de docstring Python premindo Shift+Tab depois de introduzir um objeto Python completamenteável. Os docstrings contêm a mesma informação que a help() função de um objeto.

Docstring python

Formato SQL

O Azure Databricks fornece ferramentas que permitem-lhe formatar código SQL em células de portátil de forma rápida e fácil. Estas ferramentas reduzem o esforço para manter o seu código formatado e ajudam a impor os mesmos padrões de codificação nos seus cadernos.

Pode ativar o formatter das seguintes formas:

  • Células únicas

    • Atalho de teclado: Prima Cmd+Shift+F.

    • Menu de contexto de comando: Selecione O SQL do formato no menu suspenso do contexto de comando de uma célula SQL. Este item é visível apenas em células de caderno SQL e aqueles com %sql uma magia linguística.

      Formatação SQL do contexto de comando

  • Múltiplas células

    Selecione várias células SQL e, em seguida, selecione Editar > Formato SQL Cells. Se selecionar células de mais de uma língua, apenas as células SQL são formatadas. Isto inclui aqueles que %sql usam.

    Formatação SQL do menu editar

Aqui está a primeira célula no exemplo anterior após formatação:

Depois de Formatting SQL

Ver tabela de conteúdos

Para exibir uma tabela de conteúdos gerada automaticamente, clique na seta na parte superior esquerda do caderno (entre a barra lateral e a célula mais alta). A tabela de conteúdos é gerada a partir das rubricas Markdown utilizadas no caderno.

TOC aberto

Para fechar a tabela de conteúdos, clique na seta virada para a esquerda.

Toc próximo

Ver cadernos em modo escuro

Pode optar por exibir cadernos em modo escuro. Para ligar ou desligar o modo escuro, selecione Ver > Tema do Caderno e selecione Light Tema ou Tema Escuro.

Portátil de luz ou modo escuro

Executar cadernos

Esta secção descreve como executar uma ou mais células de caderno.

Nesta secção:

Requisitos

O caderno deve ser anexado a um aglomerado. Se o cluster não estiver a funcionar, o cluster é iniciado quando executa uma ou mais células.

Executar uma célula

No menu de ações  celulares As ações celulares na extrema direita, clique em  Executar Ícone e selecione Run Cell, ou clique em shift+in.

Importante

O tamanho máximo para uma célula de portátil, tanto o conteúdo como a saída, é de 16MB.

Por exemplo, tente executar este corte de código Python que faz referência à spark variávelpredefinida .

spark

e, em seguida, executar algum código real:

1+1 # => 2

Nota

Os cadernos têm uma série de definições padrão:

  • Quando executa uma célula, o caderno liga-se automaticamente a um cluster de funcionamento sem aviso.
  • Quando pressiona o shift+in, o caderno desloca-se automaticamente para a célula seguinte se a célula não estiver visível.

Para alterar estas definições, selecione  'Ícone de conta > Definições do Utilizador > Definições de caderno e configurar as respetivas caixas de verificação.

Corra todos acima ou abaixo

Para executar todas as células antes ou depois de uma célula, vá ao menu de ações  celulares As ações celulares na extrema direita, clique em  'Executar Menu' e selecione Executar All Above ou Run All Below.

Run All Below inclui a célula em que está. Run All Above não.

Executar todas as células

Para executar todas as células num caderno, selecione Executar Tudo na barra de ferramentas do portátil.

Importante

Não faça uma corrida Tudo se os passos de montagem e desmontagem estiverem no mesmo caderno. Pode levar a uma condição de raça e possivelmente corromper os pontos de montagem.

Ver várias saídas por célula

Cadernos python e %python células em cadernos não-Python suportam múltiplas saídas por célula.

Saídas múltiplas numa célula

Esta função requer databricks Runtime 7.1 ou superior e pode ser ativada em Databricks Runtime 7.1-7.3 por definição spark.databricks.workspace.multipleResults.enabled true . É ativado por padrão no Tempo de Execução de Databricks 7.4 ou superior.

Pitão e Scala erro realçando

Os cadernos Python e Scala suportam o erro de destaque. Ou seja, a linha de código que está a lançar o erro será realçada na célula. Além disso, se a saída de erro for um stacktrace, a célula na qual o erro é lançado é exibida no stacktrace como uma ligação à célula. Pode clicar neste link para saltar para o código ofensivo.

Destaque de erro python

Destaque de erro de Scala

Notificações

As notificações alertam-no para determinados eventos, tais como o comando que está atualmente a ser executado durante a Execução de todas as células e quais os comandos que estão em estado de erro. Quando o seu caderno apresenta várias notificações de erro, a primeira terá um link que lhe permite limpar todas as notificações.

Notificações portátil

As notificações por computador são ativadas por padrão. Pode desativá-las no  ícone > definições do utilizador > definições do portátil.

Databricks Advisor

Databricks Advisor analisa automaticamente os comandos sempre que são executados e apresenta conselhos apropriados nos cadernos. Os avisos fornecem informações que podem ajudá-lo a melhorar o desempenho das cargas de trabalho, reduzindo custos e evitando erros comuns.

Ver conselhos

Uma caixa azul com um ícone de lâmpada sinaliza que os conselhos estão disponíveis para um comando. A caixa apresenta o número de conselhos distintos.

Conselhos databricks

Clique na lâmpada para expandir a caixa e ver os conselhos. Um ou mais conselhos tornar-se-ão visíveis.

Ver conselhos

Clique no link Saiba mais para ver documentação fornecendo mais informações relacionadas com o conselho.

Clique no Não me mostre este link novamente para esconder o conselho. Os conselhos deste tipo deixarão de ser apresentados. Esta ação pode ser revertida nas Definições de Caderno.

Clique novamente na lâmpada para colapsar a caixa de conselhos.

Definições de conselhos

Aceda à página Definições do Portátil selecionando  o ícone de conta> definições do utilizador > Definições de caderno ou clicando no ícone de engrenagem na caixa de conselhos expandida.

Definições de caderno

Alterar a opção "Turn on Databricks Advisor" para ativar ou desativar conselhos.

O link de conselhos ocultos Reset é apresentado se um ou mais tipos de conselhos estiverem atualmente escondidos. Clique no link para tornar este tipo de conselho visível novamente.

Executar um caderno de outro caderno

Pode executar um caderno de outro caderno usando o %run <notebook> comando mágico. Isto é aproximadamente equivalente a um :load comando num Scala REPL na sua máquina local ou uma import declaração em Python. Todas as variáveis definidas <notebook> ficam disponíveis no seu caderno atual.

%run deve estar numa cela por si só, porque executa todo o caderno inline.

Nota

Não é possível utilizar %run um ficheiro Python e as import entidades definidas nesse ficheiro num caderno. Para importar de um ficheiro Python deve embalar o ficheiro numa biblioteca Python, criar uma biblioteca Azure Databricks a partir dessa biblioteca Python e instalar a biblioteca no cluster que utiliza para executar o seu caderno.

Exemplo

Suponha que tenha notebookA notebookB e. . notebookA contém uma célula que tem o seguinte código Python:

x = 5

Mesmo que não tenha x notebookB definido, pode aceder x depois de notebookB %run notebookA correr.

%run /Users/path/to/notebookA

print(x) # => 5

Para especificar um caminho relativo, prefaciá-lo com ./ ou ../ . Por exemplo, se notebookA e estiver no mesmo notebookB diretório, pode, em alternativa, executá-los a partir de um caminho relativo.

%run ./notebookA

print(x) # => 5
%run ../someDirectory/notebookA # up a directory and into another

print(x) # => 5

Para interações mais complexas entre cadernos, consulte os fluxos de trabalho do Notebook.

Gerir o estado do caderno e os resultados

Depois de anexar um caderno a um cluster e executar uma ou mais células,o seu caderno tem estado e apresenta resultados. Esta secção descreve como gerir o estado do caderno e os resultados.

Nesta secção:

Claro estado de cadernos e resultados

Para limpar o estado e os resultados do caderno, clique em Limpar na barra de ferramentas do portátil e selecione a ação:

Estado claro e resultados

Resultados de transferência

Por predefinição, os resultados de descarregamento estão ativados. Para alternar esta definição, consulte Gerir a capacidade de descarregar os resultados dos cadernos. Se os resultados de descarregamento forem desactivdos, o  botão Resultado de Descarregamento não está visível.

Faça o download de um resultado celular

Pode descarregar um resultado celular que contenha saída tabular para a sua máquina local. Clique no ícone Resultado do download botão na parte inferior de uma célula.

Baixar resultados de células

Um ficheiro CSV nomeado export.csv é descarregado para o seu diretório de descarregamento padrão.

Baixar resultados completos

Por predefinição, a Azure Databricks devolve 1000 linhas de um DataFrame. Quando há mais de 1000 linhas, uma seta para baixo Seta Para Baixo é adicionado ao Resultado do download Adicionar... Para descarregar todos os resultados de uma consulta:

  1. Clique na seta para baixo ao lado  do Resultado do Download e selecione Baixar os resultados completos.

    Baixar resultados completos

  2. Selecione Re-executar e baixar.

    Re-executar e transferir resultados

    Depois de descarregar os resultados completos, um ficheiro CSV nomeado export.csv é descarregado para a sua máquina local e a pasta tem uma pasta gerada contendo todos os /databricks-results resultados da consulta.

    Resultados descarregados

Ocultar e mostrar conteúdo celular

O conteúdo da célula consiste no código celular e no resultado do funcionamento da célula. Pode esconder e mostrar o código de telemóvel e resultar usando o menu de ações celulares Ações celulares no topo direito da célula.

Para ocultar o código celular:

  • Clique  em Down Caret e selecione Código de Ocultação

Para esconder e mostrar o resultado da célula, faça qualquer um dos seguintes:

  • Clique  em Down Caret e selecione Resultado de Ocultação
  • Selecionar Minimizar celular
  • Tipo Esc > Shift + o

Para mostrar código ou resultados de células ocultas, clique nos links Do Show:

Mostrar código e resultados ocultos

Consulte também as posições desmontáveis.

Isolamento de cadernos

O isolamento do caderno refere-se à visibilidade de variáveis e classes entre cadernos. A Azure Databricks suporta dois tipos de isolamento:

  • Isolamento variável e de classe
  • Isolamento de sessão de faíscas

Nota

Uma vez que todos os cadernos anexados ao mesmo cluster executam nos mesmos VMs de cluster, mesmo com o isolamento da sessão spark permitiu que não exista isolamento garantido dentro de um cluster.

Isolamento variável e de classe

Variáveis e classes só estão disponíveis no caderno atual. Por exemplo, dois cadernos anexados ao mesmo cluster podem definir variáveis e classes com o mesmo nome, mas estes objetos são distintos.

Para definir uma classe que seja visível a todos os cadernos ligados ao mesmo cluster, defina a classe numa célula de pacote. Em seguida, você pode aceder à classe usando o seu nome totalmente qualificado, que é o mesmo que aceder a uma classe em uma biblioteca de Scala ou Java anexada.

Isolamento de sessão de faíscas

Cada caderno anexado a um cluster que executa Apache Spark 2.0.0 e acima tem uma variável pré-definida chamada spark que representa um SparkSession . SparkSession é o ponto de entrada para a utilização de APIs de faísca, bem como configurações de tempo de execução.

O isolamento da sessão de faíscas é ativado por defeito. Você também pode usar vistas temporárias globais para compartilhar pontos de vista temporários em cadernos. Consulte Criar Ver ou CRIAR VISTA. Para desativar o isolamento da sessão spark, definido spark.databricks.session.share true na configuração Spark.

Importante

A definição spark.databricks.session.share de verdadeiros breaks a monitorização utilizada tanto pelas células de portátil de streaming como pelos trabalhos de streaming. Especificamente:

  • Os gráficos nas células de streaming não são exibidos.
  • Os trabalhos não bloqueiam enquanto um riacho estiver em funcionamento (apenas terminam "com sucesso", parando o fluxo).
  • Os fluxos de postos de trabalho não são monitorizados para a rescisão. Em vez disso, deve ligar manualmente awaitTermination() .
  • Chamar a função de exibição no streaming dataFrames não funciona.

As células que desencadeiam comandos noutras línguas (isto é, células que %scala %python %r usam, e %sql ) e células que incluem outros cadernos (isto é, células que %run usam) fazem parte do caderno atual. Assim, estas células estão na mesma sessão que outras células de caderno. Em contraste, um fluxo de trabalho de caderno executa um caderno com um isolado , o que significa que as SparkSession vistas temporárias definidas nesse caderno não são visíveis em outros cadernos.

Controlo de versões

A Azure Databricks tem controlo de versão básica para cadernos. Pode executar as seguintes ações sobre revisões: adicionar comentários, restaurar e apagar revisões e limpar o histórico de revisão.

Para aceder às revisões do portátil, clique em Revision History no lado superior direito da barra de ferramentas do portátil.

Nesta secção:

Adicionar um comentário

Para adicionar um comentário à última revisão:

  1. Clique na revisão.

  2. Clique no link Save now.

    Guardar comentário

  3. No diálogo de Revisão do Caderno Desemneto, insira um comentário.

  4. Clique em Guardar. A revisão do caderno é guardada com o comentário inscrito.

Restaurar uma revisão

Para restaurar uma revisão:

  1. Clique na revisão.

  2. Clique em Restaurar esta revisão.

    Restaurar a revisão

  3. Clique em Confirmar. A revisão selecionada torna-se a mais recente revisão do caderno.

Excluir uma revisão

Para eliminar a entrada de revisão de um caderno:

  1. Clique na revisão.

  2. Clique no ícone do lixo Lixo.

    Eliminar revisão

  3. Clique em Sim, apista. A revisão selecionada é eliminada do histórico de revisão do caderno.

Limpar uma história de revisão

Para limpar o histórico de revisão de um caderno:

  1. Selecione o ficheiro > histórico de revisão clara.

  2. Clique em Sim, claro. O histórico de revisão do caderno está limpo.

    Aviso

    Uma vez apurado, a história da revisão não é recuperável.

Controlo da versão git

Nota

Para sincronizar o seu trabalho em Azure Databricks com um repositório remoto de Git, a Databricks recomenda a utilização de Repos para integração de Git.

A Azure Databricks também se integra com estas ferramentas de controlo de versão baseadas em Git: