Databricks Data Science & Conceitos de Engenharia

Este artigo introduz o conjunto de conceitos fundamentais que precisa de compreender para utilizar eficazmente o Espaço de Trabalho Azure Databricks.

Área de trabalho

Um espaço de trabalho é um ambiente para aceder a todos os seus ativos Azure Databricks. Um espaço de trabalho organiza objetos (cadernos, bibliotecas, dashboards e experiências) em pastas e fornece acesso a objetos de dados e recursos computacionais.

Esta secção descreve os objetos contidos nas pastas do espaço de trabalho Azure Databricks.

Bloco de Notas

Uma interface baseada na web para documentos que contêm comandos, visualizações e texto narrativo.

Dashboard

Uma interface que proporciona acesso organizado a visualizações.

Biblioteca

Um pacote de código disponível para o caderno ou trabalho em execução no seu cluster. Os tempos de execução de databricks incluem muitas bibliotecas e você pode adicionar a sua própria.

Experimentação

Uma coleção de MLflow corre para a formação de um modelo de machine learning.

Interface

Esta secção descreve as interfaces que a Azure Databricks suporta para aceder aos seus ativos: UI, API e linha de comando (CLI).

IU

O Azure Databricks UI fornece uma interface gráfica fácil de usar para pastas de espaço de trabalho e seus objetos contidos, objetos de dados e recursos computacionais.

Página de destino

API REST

Existem duas versões da API REST: REST API 2.0 e REST API 1.2. O REST API 2.0 suporta a maior parte da funcionalidade do REST API 1.2, bem como funcionalidade adicional e é preferível.

CLI

Um projeto de código aberto alojado no GitHub. O CLI é construído em cima da API REST 2.0.

Gestão de dados

Esta secção descreve os objetos que detêm os dados sobre os quais executa a análise e se alimenta em algoritmos de aprendizagem automática.

Sistema de Ficheiros do Databricks (DBFS)

Uma camada de abstração de sistema de ficheiros sobre uma loja de bolhas. Contém diretórios, que podem conter ficheiros (ficheiros de dados, bibliotecas e imagens) e outros diretórios. O DBFS é automaticamente preenchido com alguns conjuntos de dados que pode usar para aprender Azure Databricks.

Base de Dados

Uma recolha de informação que é organizada para que possa ser facilmente acedida, gerida e atualizada.

Tabela

Uma representação de dados estruturados. Você consulta tabelas com Apache Spark SQL e Apache Spark APIs.

Metastore

O componente que armazena toda a informação de estrutura das várias tabelas e divisórias no armazém de dados, incluindo informações de tipo coluna e coluna, os serializers e deserializadores necessários para ler e escrever dados, e os ficheiros correspondentes onde os dados são armazenados. Todas as implementações do Azure Databricks têm um metastore do Hive central que é acessível por todos os clusters para persistir os metadados de tabelas. Também tem a opção de utilizar uma metásta de Colmeia externaexistente.

Gestão de cálculo

Esta secção descreve conceitos que precisa de saber para executar computações em Azure Databricks.

Cluster

Um conjunto de recursos e configurações de computação em que você dirige cadernos e empregos. Há dois tipos de agrupamentos: todos os fins e trabalho.

  • Cria um cluster para todos os fins usando a UI, CLI ou REST API. Pode terminar e reiniciar manualmente um cluster para todos os fins. Esses clusters podem ser partilhados por vários utilizadores para a realização de análises interativas.
  • O programador de emprego da Azure Databricks cria um cluster de emprego quando se gere um novo cluster de emprego e encerra o cluster quando o trabalho está concluído. Não se pode reiniciar um agrupamento de empregos.

Conjunto

Um conjunto de instâncias inativas e prontas a usar que reduzem os tempos de arranque do cluster e dos tempos de escala automática. Quando ligado a uma piscina, um cluster aloca os seus nós de motorista e trabalhador da piscina. Se o pool não tiver recursos suficientes para acomodar o pedido do cluster, a piscina expande-se alojando novas instâncias do fornecedor de exemplos. Quando um cluster anexo é terminado, as instâncias que usou são devolvidas à piscina e podem ser reutilizadas por um cluster diferente.

Databricks tempo de execução

O conjunto de componentes centrais que funcionam nos clusters geridos por Azure Databricks. A Azure Databricks oferece vários tipos de tempos de execução:

  • Databricks O runtime inclui o Apache Spark, mas também adiciona uma série de componentes e atualizações que melhoram substancialmente a usabilidade, desempenho e segurança da análise de big data.
  • Databricks Runtime for Machine Learning é construído em Databricks Runtime e fornece um ambiente pronto para ir para machine learning e ciência de dados. Contém várias bibliotecas populares, incluindo TensorFlow, Keras, PyTorch e XGBoost.
  • Databricks Runtime for Genomics é uma versão do Databricks Runtime otimizada para trabalhar com dados genômicos e biomédicos.
  • Databricks Light é a embalagem Azure Databricks do tempo de execução Apache Spark de origem aberta. Fornece uma opção de tempo de execução para trabalhos que não precisam do desempenho avançado, fiabilidade ou benefícios de autoscalagem fornecidos pela Databricks Runtime. Só pode selecionar Databricks Light quando criar um cluster para executar um trabalho JAR, Python ou spark-submit; não é possível selecionar este tempo de funcionação para clusters em que execute cargas de trabalho interativas ou de cadernos.

Tarefa

Um mecanismo não interativo para a execução de um caderno ou biblioteca, imediatamente ou numa base programada.

Carga de trabalho

A Azure Databricks identifica dois tipos de cargas de trabalho sujeitas a diferentes esquemas de preços: engenharia de dados (trabalho) e análise de dados (para todos os fins).

  • Engenharia de dados Uma carga de trabalho (automatizada) funciona num cluster de trabalho que o agendador de trabalho Azure Databricks cria para cada carga de trabalho.
  • Análise de dados Uma carga de trabalho (interativa) funciona num cluster para todos os fins. Cargas de trabalho interativas normalmente executam comandos dentro de um cadernoAzure Databricks . No entanto, gerir um trabalho num cluster para todos os fins existente é também tratado como uma carga de trabalho interativa.

Contexto de execução

O estado para um ambiente REPL para cada linguagem de programação apoiada. As línguas suportadas são Python, R, Scala e SQL.

Gestão de modelos

Esta secção descreve conceitos que precisa de saber para treinar modelos de aprendizagem automática.

Modelação

Uma função matemática que representa a relação entre um conjunto de preditores e um resultado. A aprendizagem automática consiste em etapas de treino e inferência. Treina-se um modelo utilizando um conjunto de dados existente e, em seguida, utiliza-se esse modelo para prever os resultados (inferência) de novos dados.

Executar

Uma coleção de parâmetros, métricas e tags relacionados com a formação de um modelo de aprendizagem automática.

Experimentação

A unidade primária de organização e controlo de acesso para execuções; todas as corridas de MLflow pertencem a uma experiência. Uma experiência permite visualizar, pesquisar e comparar runs, bem como descarregar artefactos ou metadados para análise noutras ferramentas.

Autenticação e autorização

Esta secção descreve conceitos que precisa de saber quando gere os utilizadores do Azure Databricks e o seu acesso aos ativos da Azure Databricks.

Utilizador

Um indivíduo único que tem acesso ao sistema.

Group

Uma coleção de utilizadores.

Lista de controlo de acesso (ACL)

Uma lista de permissões anexadas ao espaço de trabalho, cluster, trabalho, mesa ou experiência. Um ACL especifica quais os utilizadores ou processos do sistema que têm acesso aos objetos, bem como quais as operações permitidas nos ativos. Cada entrada numa ACL típica especifica um assunto e uma operação.