Conceitos do Azure Databricks

Artigo
05/03/2024

Este artigo apresenta o conjunto de conceitos fundamentais que você precisa entender para usar o Azure Databricks de forma eficaz.

Contas e espaços de trabalho

No Azure Databricks, um espaço de trabalho é uma implantação do Azure Databricks na nuvem que funciona como um ambiente para sua equipe acessar ativos do Databricks. Sua organização pode optar por ter vários espaços de trabalho ou apenas um, dependendo de suas necessidades.

Uma conta do Azure Databricks representa uma única entidade que pode incluir vários espaços de trabalho. As contas habilitadas para o Unity Catalog podem ser usadas para gerenciar usuários e seu acesso aos dados centralmente em todos os espaços de trabalho da conta.

Faturamento: unidades Databricks (DBUs)

O Azure Databricks fatura com base em unidades Databricks (DBUs), unidades de capacidade de processamento por hora com base no tipo de instância de VM.

Consulte a página de preços do Azure Databricks.

Autenticação e autorização

Esta seção descreve os conceitos que você precisa saber ao gerenciar identidades do Azure Databricks e seu acesso aos ativos do Azure Databricks.

User

Um indivíduo único que tem acesso ao sistema. As identidades dos usuários são representadas por endereços de e-mail. Consulte Gerenciar usuários.

Service principal (Principal de serviço)

Uma identidade de serviço para uso com trabalhos, ferramentas automatizadas e sistemas, como scripts, aplicativos e plataformas de CI/CD. As entidades de serviço são representadas por uma ID de aplicativo. Veja Gerir principais de serviço.

Agrupar

Uma coleção de identidades. Os grupos simplificam o gerenciamento de identidades, facilitando a atribuição de acesso a espaços de trabalho, dados e outros objetos protegíveis. Todas as identidades do Databricks podem ser atribuídas como membros de grupos. Consulte Gerir grupos

Lista de controle de acesso (ACL)

Uma lista de permissões anexadas ao espaço de trabalho, cluster, trabalho, tabela ou experimento. Uma ACL especifica quais usuários ou processos do sistema recebem acesso aos objetos, bem como quais operações são permitidas nos ativos. Cada entrada em uma ACL típica especifica um assunto e uma operação. Consulte Listas de controle de acesso

Token de acesso pessoal

Uma cadeia de caracteres opaca é usada para autenticar na API REST e por ferramentas nos parceiros de tecnologia para se conectar a armazéns SQL. Consulte Autenticação de token de acesso pessoal do Azure Databricks.

Os tokens Microsoft Entra ID (anteriormente Azure Ative Directory) também podem ser usados para autenticar na API REST.

IU

A interface do usuário do Azure Databricks é uma interface gráfica para interagir com recursos, como pastas de espaço de trabalho e seus objetos contidos, objetos de dados e recursos computacionais.

Ciência de dados e engenharia

Ciência de dados e ferramentas de engenharia ajudam na colaboração entre cientistas de dados, engenheiros de dados e analistas de dados. Esta secção descreve os conceitos fundamentais.

Área de trabalho

Um espaço de trabalho é um ambiente para acessar todos os seus ativos do Azure Databricks. Um espaço de trabalho organiza objetos (blocos de anotações, bibliotecas, painéis e experimentos) em pastas e fornece acesso a objetos de dados e recursos computacionais.

Bloco de Notas

Uma interface baseada na Web para criar fluxos de trabalho de ciência de dados e aprendizado de máquina que podem conter comandos, visualizações e texto narrativo executáveis. Consulte Introdução aos blocos de anotações Databricks.

Dashboard

Uma interface que fornece acesso organizado a visualizações. Consulte Painéis em blocos de anotações.

Biblioteca

Um pacote de código disponível para o bloco de anotações ou trabalho em execução no cluster. Os tempos de execução do Databricks incluem muitas bibliotecas e você pode adicionar as suas próprias.

Pasta Git (anteriormente Repos)

Uma pasta cujo conteúdo é co-versionado sincronizando-os com um repositório Git remoto. As pastas Databricks Git integram-se ao Git para fornecer controle de origem e versão para seus projetos.

Experimentação

Uma coleção de MLflow é executada para treinar um modelo de aprendizado de máquina. Consulte Organizar execuções de treinamento com experimentos MLflow.

Interfaces do Azure Databricks

Esta seção descreve as interfaces que o Azure Databricks suporta, além da interface do usuário, para acessar seus ativos: API e linha de comando (CLI).

API REST

O Databricks fornece documentação de API para o espaço de trabalho e a conta.

CLI

Um projeto de código aberto hospedado no GitHub. A CLI é construída sobre a API REST do Databricks.

Gestão de dados

Esta seção descreve os objetos que contêm os dados nos quais você executa análises e alimentam algoritmos de aprendizado de máquina.

Sistema de Ficheiros do Databricks (DBFS)

Uma camada de abstração do sistema de arquivos sobre um repositório de blobs. Ele contém diretórios, que podem conter arquivos (arquivos de dados, bibliotecas e imagens) e outros diretórios. O DBFS é preenchido automaticamente com alguns conjuntos de dados que você pode usar para aprender o Azure Databricks. Consulte O que é o sistema de arquivos Databricks (DBFS)?.

Base de Dados

Uma coleção de objetos de dados, como tabelas ou exibições e funções, que é organizada para que possa ser facilmente acessada, gerenciada e atualizada. Consulte O que é uma base de dados?

Tabela

Uma representação de dados estruturados. Você consulta tabelas com Apache Spark SQL e Apache Spark APIs. Consulte O que é uma tabela?

Tabela delta

Por padrão, todas as tabelas criadas no Azure Databricks são tabelas Delta. As tabelas Delta são baseadas no projeto de código aberto Delta Lake, uma estrutura para armazenamento de tabelas ACID de alto desempenho em armazenamentos de objetos na nuvem. Uma tabela Delta armazena dados como um diretório de arquivos no armazenamento de objetos na nuvem e registra metadados de tabela no metastore dentro de um catálogo e esquema.

Saiba mais sobre as tecnologias com a marca Delta.

Metastore

O componente que armazena todas as informações de estrutura das várias tabelas e partições no data warehouse, incluindo informações de tipo de coluna e coluna, os serializadores e desserializadores necessários para ler e gravar dados e os arquivos correspondentes onde os dados são armazenados. Consulte O que é um metastore?

Todas as implementações do Azure Databricks têm um metastore do Hive central que é acessível por todos os clusters para persistir os metadados de tabelas. Você também tem a opção de usar um metastore externo existente do Hive.

Visualização

Uma apresentação gráfica do resultado da execução de uma consulta. Consulte Visualizações em blocos de anotações Databricks.

Gestão computacional

Esta seção descreve os conceitos que você precisa saber para executar cálculos no Azure Databricks.

Cluster

Um conjunto de recursos e configurações de computação nos quais você executa blocos de anotações e trabalhos. Existem dois tipos de clusters: polivalente e trabalho. Consulte Computação.

Você cria um cluster multiuso usando a interface do usuário, CLI ou API REST. Pode terminar e reiniciar manualmente um cluster para todos os fins. Esses clusters podem ser partilhados por vários utilizadores para a realização de análises interativas.
O agendador de tarefas do Azure Databricks cria um cluster de tarefas quando executa uma tarefa num novo cluster de tarefas e termina o cluster quando a tarefa é concluída. Não é possível reiniciar um cluster de trabalhos.

Conjunto

Um conjunto de instâncias ociosas e prontas para uso que reduzem os tempos de inicialização e dimensionamento automático do cluster. Quando anexado a um pool, um cluster aloca seus nós de driver e de trabalho do pool. Consulte Referência de configuração do pool.

Se o pool não tiver recursos ociosos suficientes para acomodar a solicitação do cluster, o pool será expandido alocando novas instâncias do provedor de instância. Quando um cluster anexado é encerrado, as instâncias usadas são retornadas ao pool e podem ser reutilizadas por um cluster diferente.

Tempo de execução do Databricks

O conjunto de componentes principais que são executados nos clusters gerenciados pelo Azure Databricks. Consulte Computação.* O Azure Databricks tem os seguintes tempos de execução:

O Databricks Runtime inclui o Apache Spark, mas também adiciona uma série de componentes e atualizações que melhoram substancialmente a usabilidade, o desempenho e a segurança da análise de big data.
O Databricks Runtime for Machine Learning é baseado no Databricks Runtime e fornece infraestrutura de aprendizado de máquina pré-criada que é integrada com todos os recursos do espaço de trabalho do Azure Databricks. Ele contém várias bibliotecas populares, incluindo TensorFlow, Keras, PyTorch e XGBoost.

Fluxos de Trabalho

Estruturas para desenvolver e executar pipelines de processamento de dados:

Trabalhos: um mecanismo não interativo para executar um bloco de anotações ou biblioteca imediatamente ou de forma programada.
Delta Live Tables: Uma estrutura para construir pipelines de processamento de dados confiáveis, sustentáveis e testáveis.

Consulte Introdução aos fluxos de trabalho do Azure Databricks.

Carga de trabalho

O Azure Databricks identifica dois tipos de cargas de trabalho sujeitas a diferentes esquemas de preços : engenharia de dados (trabalho) e análise de dados (polivalente).

Engenharia de dados Uma carga de trabalho (automatizada) é executada em um cluster de tarefas que o agendador de tarefas do Azure Databricks cria para cada carga de trabalho.
Análise de dados Uma carga de trabalho (interativa) é executada em um cluster multiuso. As cargas de trabalho interativas normalmente executam comandos em um bloco de anotações do Azure Databricks. No entanto, a execução de um trabalho em um cluster multiuso existente também é tratada como uma carga de trabalho interativa.

Contexto de execução

O estado de um ambiente de loop de leitura-eval-impressão (REPL) para cada linguagem de programação suportada. As linguagens suportadas são Python, R, Scala e SQL.

Aprendizagem automática

O Machine Learning no Azure Databricks é um ambiente integrado de ponta a ponta que incorpora serviços gerenciados para rastreamento de experimentos, treinamento de modelos, desenvolvimento e gerenciamento de recursos e serviço de recursos e modelos.

Experimentações

A principal unidade de organização para acompanhar o desenvolvimento de modelos de machine learning. Consulte Organizar execuções de treinamento com experimentos MLflow. Os experimentos organizam, exibem e controlam o acesso a execuções registradas individuais do código de treinamento do modelo.

Loja de recursos

Um repositório centralizado de recursos. Consulte O que é uma loja de recursos? O Feature Store permite o compartilhamento e a descoberta de recursos em toda a organização e também garante que o mesmo código de computação de recursos seja usado para treinamento e inferência de modelos.

Modelos & registro de modelo

Um modelo treinado de aprendizado de máquina ou aprendizado profundo que foi registrado no Registro de Modelo.

SQL

SQL REST API

Uma interface que permite automatizar tarefas em objetos SQL. Consulte API SQL.

Dashboard

Uma apresentação de visualizações de dados e comentários. Consulte Painéis. Para painéis herdados, consulte Painéis herdados.

Consultas SQL

Esta seção descreve os conceitos que você precisa saber para executar consultas SQL no Azure Databricks.

Consulta: Uma instrução SQL válida.
SQL warehouse: um recurso de computação no qual você executa consultas SQL.
Histórico de consultas: uma lista de consultas executadas e suas características de desempenho.

Conceitos do Azure Databricks

Contas e espaços de trabalho

Faturamento: unidades Databricks (DBUs)

Autenticação e autorização

User

Service principal (Principal de serviço)

Agrupar

Lista de controle de acesso (ACL)

Token de acesso pessoal

IU

Ciência de dados e engenharia

Área de trabalho

Bloco de Notas

Dashboard

Biblioteca

Pasta Git (anteriormente Repos)

Experimentação

Interfaces do Azure Databricks

API REST

CLI

Gestão de dados

Sistema de Ficheiros do Databricks (DBFS)

Base de Dados

Tabela

Tabela delta

Metastore

Visualização

Gestão computacional

Cluster

Conjunto

Tempo de execução do Databricks

Fluxos de Trabalho

Carga de trabalho

Contexto de execução

Aprendizagem automática

Experimentações

Loja de recursos

Modelos & registro de modelo

SQL

SQL REST API

Dashboard

Consultas SQL

Comentários

Comentários

Recursos adicionais