O que é Azure Databricks Workspace?

Azure Databricks Workspace é uma plataforma de análise baseada no Apache Spark. O Azure Databricks Workspace está integrado com o Azure para fornecer uma configuração de um clique, fluxos de trabalho simplificados e um espaço de trabalho interativo que permite a colaboração entre engenheiros de dados, cientistas de dados e engenheiros de machine learning.

O que é o Azure Databricks?

Para um grande oleoduto de dados, os dados (crus ou estruturados) são ingeridos em Azure Data Factory em lotes, ou transmitidos perto de tempo real usando Apache Kafka, Event Hub ou IoT Hub. Estes dados aterram num lago de dados para armazenamento persistido a longo prazo, no Azure Blob Storage ou no Azure Data Lake Storage. Como parte do seu fluxo de trabalho de análise, use Azure Databricks para ler dados de várias fontes de dados, tais como Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB,ou Azure SQL Data Warehouse e transforme-o em insights inovadores usando Spark.

Gasoduto databricks

Plataforma de análise Apache Spark

O espaço de trabalho Azure Databricks compreende as tecnologias e capacidades completas do cluster Apache Spark de código aberto. Faísca no espaço de trabalho Azure Databricks inclui os seguintes componentes:

Apache Spark no Azure Databricks

  • Spark SQL e DataFrames: o Spark SQL é o módulo do Spark para trabalhar com dados estruturados. Um DataFrame é uma coleção distribuída de dados organizados em colunas com nome. É conceptualmente equivalente a uma tabela numa base de dados relacional ou a um pacote de dados em R/Python.

  • Transmissão em fluxo: análise e processamento de dados em tempo real para aplicações interativas e analíticas. Pode ser integrado com HDFS, Flume e Kafka.

  • MLlib: Biblioteca de Aprendizagem automática composta por algoritmos e utilitários de aprendizagem comuns, incluindo classificação, regressão, agrupamento, filtragem colaborativa, redução da dimensionalidade, bem como primitivos de otimização subjacentes.

  • GraphX: gráficos e computação de gráficos para um âmbito alargado de casos de utilização, desde a análise cognitiva até à exploração de dados.

  • Spark Core API: inclui suporte para R, SQL, Python, Scala e Java.

Apache Spark in Azure Databricks Workspace

O Azure Databricks Workspace baseia-se nas capacidades da Spark, fornecendo uma plataforma cloud de gestão zero que inclui:

  • Clusters do Spark totalmente geridos
  • Uma área de trabalho interativa para exploração e visualização
  • Uma plataforma para alimentar as suas aplicações favoritas da Spark

Clusters do Apache Spark totalmente geridos na cloud

O Azure Databricks possui um ambiente de produção seguro e fiável na cloud, gerido e suportado por especialistas em Spark. Pode:

  • Criar clusters em segundos.
  • Clusters de escala automática dinâmica para cima e para baixo e partilhá-los entre equipas.
  • Utilize clusters programáticamente invocando APIs rest.
  • Utilizar as capacidades de integração de dados segura baseadas no Spark, que lhe permitem uniformizar os dados sem centralização.
  • Obter acesso instantânea às funcionalidades mais recentes do Apache Spark com cada versão.

Runtime do Databricks

Databricks Runtime é construído em cima de Apache Spark e é construído de nativo para a nuvem Azure.

O Azure Databricks resumiu completamente a complexidade da infraestrutura e a necessidade de conhecimentos especializados para configurar e configurar a sua infraestrutura de dados.

Para os engenheiros de dados que se preocupam com o desempenho das tarefas de produção, o Azure Databricks fornece um motor Spark que é mais rápido e eficaz através de várias otimizações na camada de E/S e na camada de processamento (E/S do Databricks).

Área de trabalho para colaboração

Através de um ambiente de colaboração e integrado, o Azure Databricks simplifica o processo de exploração de dados, prototipagem e execução de aplicações condicionadas por dados no Spark.

  • Determine como utilizar os dados com exploração de dados fácil.
  • Documente o seu progresso em blocos de notas em R, Python, Scala ou SQL.
  • Visualize dados em apenas alguns cliques e utilize ferramentas familiares como o Matplotlib, ggplot ou d3.
  • Utilize dashboards interativos para criar relatórios dinâmicos.
  • Utilize o Spark e interaja com os dados em simultâneo.

Segurança empresarial

O Azure Databricks Workspace fornece segurança Azure de nível empresarial, incluindo integração do Azure Ative Directory, controlos baseados em funções e SLAs que protegem os seus dados e o seu negócio.

  • A integração com o Azure Active Directory permite-lhe executar soluções completas baseadas no Azure com o Azure Databricks.
  • O acesso baseado em funções do Azure Databricks ativa permissões de utilizador detalhadas para blocos de notas, clusters, tarefas e dados.
  • SLAs de nível empresarial.

Importante

Azure Databricks Workspace é um serviço de primeira parte da Microsoft Azure que está implantado na infraestrutura Global Azure Public Cloud. Todas as comunicações entre os componentes do serviço, incluindo entre os IPs públicos no plano de controlo e o plano de dados do cliente, permanecem dentro da espinha dorsal da rede Microsoft Azure. Consulte também a rede global da Microsoft.

Integração com os serviços do Azure

Azure Databricks Workspace integra-se profundamente com bases de dados e lojas Azure: Synapse Analytics, Cosmos DB, Data Lake Store e armazenamento Blob.

Integração com o Power BI

Através de uma rica integração com o Power BI, o Azure Databricks Workspace permite-lhe descobrir e partilhar as suas ideias impactantes de forma rápida e fácil. Também pode utilizar outras ferramentas bi, como o Tableau Software.

Passos seguintes