Computação

A computação do Azure Databricks refere-se à seleção de recursos de computação disponíveis no espaço de trabalho do Azure Databricks. Os usuários precisam de acesso à computação para executar cargas de trabalho de engenharia de dados, ciência de dados e análise de dados, como pipelines de ETL de produção, análise de streaming, análise ad-hoc e aprendizado de máquina.

Os usuários podem se conectar à computação existente ou criar uma nova computação se tiverem as permissões adequadas.

Você pode visualizar a computação à qual tem acesso usando a seção Computação do espaço de trabalho:

Página de computação para todos os fins no espaço de trabalho Databricks

Tipos de computação

Estes são os tipos de computação disponíveis no Azure Databricks:

  • Computação sem servidor para notebooks (Visualização pública): computação escalável sob demanda usada para executar código SQL e Python em blocos de anotações.

  • Computação sem servidor para fluxos de trabalho (visualização pública): computação escalável sob demanda usada para executar seus trabalhos do Databricks sem configurar e implantar a infraestrutura.

  • Computação multiuso: computação provisionada usada para analisar dados em notebooks. Você pode criar, encerrar e reiniciar essa computação usando a interface do usuário, CLI ou API REST.

  • Computação de trabalho: computação provisionada usada para executar trabalhos automatizados. O agendador de tarefas do Azure Databricks cria automaticamente uma computação de trabalho sempre que um trabalho é configurado para ser executado em uma nova computação. A computação termina quando o trabalho é concluído. Não é possível reiniciar uma computação de trabalho. Consulte Usar a computação do Azure Databricks com seus trabalhos.

  • Pools de instâncias: calcule com instâncias ociosas e prontas para uso, usadas para reduzir os tempos de início e dimensionamento automático. Você pode criar essa computação usando a interface do usuário, CLI ou API REST.

  • Armazéns SQL sem servidor: computação elástica sob demanda usada para executar comandos SQL em objetos de dados no editor SQL ou blocos de anotações interativos. Você pode criar armazéns SQL usando a interface do usuário, CLI ou API REST.

  • Armazéns SQL clássicos: computação provisionada usada para executar comandos SQL em objetos de dados no editor SQL ou blocos de anotações interativos. Você pode criar armazéns SQL usando a interface do usuário, CLI ou API REST.

Os artigos nesta seção descrevem como trabalhar com recursos de computação usando a interface do usuário do Azure Databricks. Para outros métodos, consulte Usar a linha de comando e a referência da API REST do Databricks.

Databricks Runtime

Databricks Runtime é o conjunto de componentes principais que são executados em sua computação. O Databricks Runtime é uma configuração configurável em todos os fins de computação de trabalhos, mas selecionada automaticamente em armazéns SQL.

Cada versão do Databricks Runtime inclui atualizações que melhoram a usabilidade, o desempenho e a segurança da análise de big data. O Databricks Runtime em sua computação adiciona muitos recursos, incluindo:

  • Delta Lake, uma camada de armazenamento de última geração construída sobre o Apache Spark que fornece transações ACID, layouts e índices otimizados e melhorias no mecanismo de execução para a construção de pipelines de dados. Veja O que é Delta Lake?.
  • Bibliotecas Java, Scala, Python e R instaladas.
  • Ubuntu e suas bibliotecas de sistema que o acompanham.
  • Bibliotecas de GPU para clusters habilitados para GPU.
  • Serviços do Azure Databricks que se integram com outros componentes da plataforma, como blocos de anotações, trabalhos e gerenciamento de cluster.

Para obter informações sobre o conteúdo de cada versão de tempo de execução, consulte as notas de versão.

Controle de versão em tempo de execução

As versões do Databricks Runtime são lançadas regularmente:

  • As versões de suporte de longo prazo são representadas por um qualificador LTS (por exemplo, 3,5 LTS). Para cada versão principal, declaramos uma versão de recurso "canônica", para a qual fornecemos três anos completos de suporte. Consulte Ciclos de vida de suporte ao tempo de execução do Databricks para obter mais informações.
  • As versões principais são representadas por um incremento no número da versão que precede o ponto decimal (o salto de 3,5 para 4,0, por exemplo). Eles são liberados quando há grandes alterações, algumas das quais podem não ser compatíveis com versões anteriores.
  • As versões de recursos são representadas por um incremento no número da versão que segue o ponto decimal (o salto de 3,4 para 3,5, por exemplo). Cada versão principal inclui várias versões de recursos. As versões de recursos são sempre compatíveis com versões anteriores em sua versão principal.