Introdução aos objetos de espaço de trabalho

Este artigo fornece uma introdução de alto nível aos objetos de espaço de trabalho do Azure Databricks. Você pode criar, exibir e organizar objetos de espaço de trabalho no navegador de espaço de trabalho entre personas.

Aglomerados

Os clusters Azure Databricks Data Science & Engineering e Databricks Machine Learning fornecem uma plataforma unificada para vários casos de uso, como a execução de pipelines ETL de produção, análise de streaming, análise ad-hoc e aprendizado de máquina. Um cluster é um tipo de recurso de computação do Azure Databricks. Outros tipos de recursos de computação incluem armazéns SQL do Azure Databricks.

Para obter informações detalhadas sobre como gerenciar e usar clusters, consulte Computação.

Computadores portáteis

Um bloco de anotações é uma interface baseada na Web para documentos que contêm uma série de células executáveis (comandos) que operam em arquivos e tabelas, visualizações e texto narrativo. Os comandos podem ser executados em sequência, referindo-se à saída de um ou mais comandos executados anteriormente.

Os blocos de anotações são um mecanismo para executar código no Azure Databricks. O outro mecanismo é o emprego.

Para obter informações detalhadas sobre como gerenciar e usar blocos de anotações, consulte Introdução aos blocos de anotações Databricks.

Empregos

Os trabalhos são um mecanismo para executar código no Azure Databricks. O outro mecanismo são os cadernos.

Para obter informações detalhadas sobre como gerenciar e usar trabalhos, consulte Criar e executar trabalhos do Azure Databricks.

Bibliotecas

Uma biblioteca disponibiliza código de terceiros ou criado localmente para blocos de anotações e trabalhos em execução em seus clusters.

Para obter informações detalhadas sobre como gerenciar e usar bibliotecas, consulte Bibliotecas.

Dados

Você pode importar dados para um sistema de arquivos distribuído montado em um espaço de trabalho do Azure Databricks e trabalhar com ele em blocos de anotações e clusters do Azure Databricks. Você também pode usar uma grande variedade de fontes de dados do Apache Spark para acessar dados.

Para obter informações detalhadas sobre como carregar dados, consulte Ingerir dados em uma casa de lago Databricks.

Ficheiros

Importante

Esta funcionalidade está em Pré-visualização Pública.

No Databricks Runtime 11.3 LTS e superior, você pode criar e usar arquivos arbitrários no espaço de trabalho Databricks. Os ficheiros podem ser de qualquer tipo de ficheiro. Exemplos comuns incluem:

  • .py arquivos usados em módulos personalizados.
  • .md arquivos, como README.md.
  • .csv ou outros pequenos ficheiros de dados.
  • .txt ficheiros.
  • Ficheiros de registo.

Para obter informações detalhadas sobre como usar arquivos, consulte Trabalhar com arquivos no Azure Databricks. Para obter informações sobre como usar arquivos para modularizar seu código à medida que você desenvolve com blocos de anotações Databricks, consulte Compartilhar código entre blocos de anotações Databricks

Pastas Git

As pastas Git são pastas do Azure Databricks cujo conteúdo é coversionado sincronizando-as com um repositório Git remoto. Usando pastas Git Databricks, você pode desenvolver blocos de anotações no Azure Databricks e usar um repositório Git remoto para colaboração e controle de versão.

Para obter informações detalhadas sobre como usar repositórios, consulte Integração do Git com pastas do Databricks Git.

Modelos

Modelo refere-se a um modelo registrado no MLflow Model Registry. O Registro de Modelo é um repositório de modelos centralizado que permite gerenciar o ciclo de vida completo dos modelos MLflow. Ele fornece linhagem de modelo cronológico, versionamento de modelo, transições de estágio e anotações e descrições de modelo e versão de modelo.

Para obter informações detalhadas sobre como gerenciar e usar modelos, consulte Gerenciar o ciclo de vida do modelo no Unity Catalog.

Experiências

Um experimento MLflow é a principal unidade de organização e controle de acesso para execuções de treinamento de modelo de aprendizado de máquina MLflow; todas as execuções MLflow pertencem a um experimento. Cada experimento permite visualizar, pesquisar e comparar execuções, bem como baixar artefatos ou metadados de execução para análise em outras ferramentas.

Para obter informações detalhadas sobre como gerenciar e usar experimentos, consulte Organizar execuções de treinamento com experimentos MLflow.

Consultas

As consultas são instruções SQL que permitem que você interaja com seus dados. Para obter mais informações, consulte Acessar e gerenciar consultas salvas.

Dashboards

Os painéis são apresentações de visualizações de consulta e comentários. Consulte Painéis ou Painéis herdados.

Alertas

Alertas são notificações de que um campo retornado por uma consulta atingiu um limite. Para obter mais informações, consulte O que são alertas Databricks SQL?.

Referências a objetos de espaço de trabalho

Historicamente, os usuários eram obrigados a incluir o prefixo de /Workspace caminho para algumas APIs do Databricks (%sh), mas não para outras (%run, entradas da API REST).

Os usuários podem usar caminhos de espaço de trabalho com o prefixo /Workspace em todos os lugares. Referências antigas a caminhos sem o prefixo /Workspace são redirecionadas e continuam a funcionar. Recomendamos que todos os caminhos do espaço de trabalho carreguem o prefixo /Workspace para diferenciá-los dos caminhos Volume e DBFS.

O pré-requisito para um comportamento consistente /Workspace de prefixo de caminho é o seguinte: Não pode haver uma /Workspace pasta no nível raiz do espaço de trabalho. Se você tiver uma /Workspace pasta no nível raiz e quiser habilitar essa melhoria de UX, exclua ou renomeie a /Workspace pasta criada e entre em contato com sua equipe de conta do Azure Databricks.

Partilhar um ficheiro, pasta ou URL do bloco de notas

No seu espaço de trabalho do Azure Databricks, as URLs para arquivos, blocos de anotações e pastas do espaço de trabalho estão nos formatos:

URLs de arquivos de espaço de trabalho

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>

URLs do bloco de anotações

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>

URLs de pasta (espaço de trabalho e Git)

  https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>

Esses links podem quebrar se qualquer pasta, arquivo ou bloco de anotações no caminho atual for atualizado com um comando pull do Git ou for excluído e recriado com o mesmo nome. No entanto, você pode construir um link com base no caminho do espaço de trabalho para compartilhar com outros usuários do Databricks com níveis de acesso apropriados, alterando-o para um link neste formato:

  https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>

Os links para pastas, blocos de anotações e arquivos podem ser compartilhados substituindo tudo na URL depois ?o=<16-digit-workspace-ID> pelo caminho para o arquivo, pasta ou bloco de anotações da raiz do espaço de trabalho. Se você estiver compartilhando um URL para uma pasta, remova /browse/folders/<16-digit-ID> o URL original também.

Para obter o caminho do arquivo, abra o menu de contexto clicando com o botão direito do mouse na pasta, bloco de anotações ou arquivo em seu espaço de trabalho que você deseja compartilhar e selecione Copiar URL/caminho>Caminho completo. Anexe #workspace ao caminho do arquivo que você acabou de copiar e acrescente a cadeia de caracteres resultante após o ?o=<16-digit-workspace-ID> para que ele corresponda ao formato de URL acima.

Selecionar o caminho Copiar URL seguido de Caminho completo no menu de contexto de uma pasta de espaço de trabalho.

Exemplo de formulação de URL #1: URLs de pasta

Para compartilhar a URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222da pasta do espaço de trabalho , remova a browse/folders/1111111111111111 substring da URL. Adicione #workspace seguido do caminho para a pasta ou objeto de espaço de trabalho que você deseja compartilhar.

Nesse caso, o caminho do espaço de trabalho é para uma pasta, /Workspace/Users/user@example.com/team-git/notebooks. Depois de copiar o caminho completo do seu espaço de trabalho, agora você pode construir o link compartilhável:

  https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks

Exemplo de formulação de URL 2: URLs de bloco de anotações

Para partilhar o URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333do bloco de notas , remova #notebook/2222222222222222/command/3333333333333333. Adicionar #workspace seguido pelo caminho para a pasta ou objeto de espaço de trabalho.

Nesse caso, o caminho do espaço de trabalho é apontado para um bloco de anotações, /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook. Depois de copiar o caminho completo do seu espaço de trabalho, agora você pode construir o link compartilhável:

  https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook

Agora você tem um URL estável para um caminho de arquivo, pasta ou bloco de anotações para compartilhar! Para obter mais informações sobre URLs e identificadores, consulte Obter identificadores para objetos de espaço de trabalho.