O que é o Azure Databricks?What is Azure Databricks?

O Azure Databricks é uma plataforma de análise baseada no Apache Spark e otimizada para a plataforma de serviços cloud Microsoft Azure.Azure Databricks is an Apache Spark-based analytics platform optimized for the Microsoft Azure cloud services platform. Concebida com os fundadores do Apache Spark, o Databricks está integrado com o Azure para prestar configurações com um clique, fluxos de trabalho fluídos e uma área de trabalho interativa que permite a colaboração entre cientistas de dados, engenheiros de dados e analistas empresariais.Designed with the founders of Apache Spark, Databricks is integrated with Azure to provide one-click setup, streamlined workflows, and an interactive workspace that enables collaboration between data scientists, data engineers, and business analysts.

O que é o Azure Databricks?What is Azure Databricks?

O Azure Databricks é um serviço de análise baseada no Apache Spark rápida, fácil e de colaboração.Azure Databricks is a fast, easy, and collaborative Apache Spark-based analytics service. Para um pipeline de grandes volumes de dados, os dados (não processados ou estruturados) é ingeridos no Azure através do Azure Data Factory em lotes ou transmitidos em tempo quase real com o Kafka, o Hub de eventos ou o IoT Hub.For a big data pipeline, the data (raw or structured) is ingested into Azure through Azure Data Factory in batches, or streamed near real-time using Kafka, Event Hub, or IoT Hub. Este francesas de dados num data lake longo prazo persistentes armazenamento, no armazenamento de Blobs do Azure ou de armazenamento do Azure Data Lake.This data lands in a data lake for long term persisted storage, in Azure Blob Storage or Azure Data Lake Storage. Como parte do seu fluxo de trabalho de análise, utilizar o Azure Databricks para ler os dados de várias origens de dados, tal como armazenamento de Blobs do Azure, o armazenamento do Azure Data Lake, do Azure Cosmos DB , ou do Azure SQL Data Warehouse e transformá-lo em ideias inovadoras com o Spark.As part of your analytics workflow, use Azure Databricks to read data from multiple data sources such as Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB, or Azure SQL Data Warehouse and turn it into breakthrough insights using Spark.

Pipeline de Databricks

Plataforma de análise baseada no Apache SparkApache Spark-based analytics platform

O Azure Databricks inclui as capacidades e tecnologias completas de cluster do Apache Spark open source.Azure Databricks comprises the complete open-source Apache Spark cluster technologies and capabilities. O Spark no Azure Databricks inclui os seguintes componentes:Spark in Azure Databricks includes the following components:

Apache Spark no Azure DatabricksApache Spark in Azure Databricks

  • O spark SQL e DataFrames: Spark SQL é o módulo do Spark para trabalhar com dados estruturados.Spark SQL and DataFrames: Spark SQL is the Spark module for working with structured data. Um DataFrame é uma coleção distribuída de dados organizados em colunas com nome.A DataFrame is a distributed collection of data organized into named columns. É conceptualmente equivalente a uma tabela numa base de dados relacional ou a um pacote de dados em R/Python.It is conceptually equivalent to a table in a relational database or a data frame in R/Python.

  • Transmissão em fluxo: Processamento de dados em tempo real e análise para aplicações interativas e analíticas.Streaming: Real-time data processing and analysis for analytical and interactive applications. Pode ser integrado com HDFS, Flume e Kafka.Integrates with HDFS, Flume, and Kafka.

  • MLib: Biblioteca de Machine Learning constituída por comuns de aprendizado algoritmos e utilitários, incluindo classificação, regressão, clustering, filtragem em colaboração, redução de dimensionalidade, bem como primitivos de otimização subjacentes.MLib: Machine Learning library consisting of common learning algorithms and utilities, including classification, regression, clustering, collaborative filtering, dimensionality reduction, as well as underlying optimization primitives.

  • GraphX: Gráficos e computação de gráficos para um âmbito alargado de casos desde a análise cognitiva para exploração de dados de utilização.GraphX: Graphs and graph computation for a broad scope of use cases from cognitive analytics to data exploration.

  • API do spark Core: Inclui suporte para R, SQL, Python, Scala e Java.Spark Core API: Includes support for R, SQL, Python, Scala, and Java.

Apache Spark no Azure DatabricksApache Spark in Azure Databricks

O Azure Databricks baseia-se nas capacidades do Spark ao fornecer uma plataforma cloud de gestão zero, que inclui:Azure Databricks builds on the capabilities of Spark by providing a zero-management cloud platform that includes:

  • Clusters do Spark totalmente geridosFully managed Spark clusters
  • Uma área de trabalho interativa para exploração e visualizaçãoAn interactive workspace for exploration and visualization
  • Uma plataforma para alimentar as suas aplicações baseadas no Spark favoritasA platform for powering your favorite Spark-based applications

Clusters do Apache Spark totalmente geridos na cloudFully managed Apache Spark clusters in the cloud

O Azure Databricks possui um ambiente de produção seguro e fiável na cloud, gerido e suportado por especialistas em Spark.Azure Databricks has a secure and reliable production environment in the cloud, managed and supported by Spark experts. Pode:You can:

  • Criar clusters em segundos.Create clusters in seconds.
  • Dimensionar automaticamente os clusters de forma dinâmica na vertical e horizontal, incluindo clusters sem servidor, e partilhá-los entre equipas.Dynamically autoscale clusters up and down, including serverless clusters, and share them across teams.
  • Utilizar clusters através de programação, utilizando as APIs REST.Use clusters programmatically by using the REST APIs.
  • Utilizar as capacidades de integração de dados segura baseadas no Spark, que lhe permitem uniformizar os dados sem centralização.Use secure data integration capabilities built on top of Spark that enable you to unify your data without centralization.
  • Obter acesso instantânea às funcionalidades mais recentes do Apache Spark com cada versão.Get instant access to the latest Apache Spark features with each release.

Runtime do DatabricksDatabricks Runtime

O Runtime do Databricks baseia-se no Apache Spark e foi nativamente concebido para a cloud do Azure.The Databricks Runtime is built on top of Apache Spark and is natively built for the Azure cloud.

Com a opção Sem servidor, o Azure Databricks elimina totalmente a complexidade da infraestrutura e a necessidade de conhecimentos especializados para preparar e configurar a sua infraestrutura de dados.With the Serverless option, Azure Databricks completely abstracts out the infrastructure complexity and the need for specialized expertise to set up and configure your data infrastructure. A opção Sem servidor ajuda os cientistas de dados a iterar rapidamente como uma equipa.The Serverless option helps data scientists iterate quickly as a team.

Para os engenheiros de dados que se preocupam com o desempenho das tarefas de produção, o Azure Databricks fornece um motor Spark que é mais rápido e eficaz através de várias otimizações na camada de E/S e na camada de processamento (E/S do Databricks).For data engineers, who care about the performance of production jobs, Azure Databricks provides a Spark engine that is faster and performant through various optimizations at the I/O layer and processing layer (Databricks I/O).

Área de trabalho para colaboraçãoWorkspace for collaboration

Através de um ambiente de colaboração e integrado, o Azure Databricks simplifica o processo de exploração de dados, prototipagem e execução de aplicações condicionadas por dados no Spark.Through a collaborative and integrated environment, Azure Databricks streamlines the process of exploring data, prototyping, and running data-driven applications in Spark.

  • Determine como utilizar os dados com exploração de dados fácil.Determine how to use data with easy data exploration.
  • Documente o seu progresso em blocos de notas em R, Python, Scala ou SQL.Document your progress in notebooks in R, Python, Scala, or SQL.
  • Visualize dados em apenas alguns cliques e utilize ferramentas familiares como o Matplotlib, ggplot ou d3.Visualize data in a few clicks, and use familiar tools like Matplotlib, ggplot, or d3.
  • Utilize dashboards interativos para criar relatórios dinâmicos.Use interactive dashboards to create dynamic reports.
  • Utilize o Spark e interaja com os dados em simultâneo.Use Spark and interact with the data simultaneously.

Segurança empresarialEnterprise security

O Azure Databricks fornece a segurança do Azure de nível empresarial, incluindo a integração do Azure Active Directory, controlos baseados em funções e SLAs que protegem os seus dados e a sua empresa.Azure Databricks provides enterprise-grade Azure security, including Azure Active Directory integration, role-based controls, and SLAs that protect your data and your business.

  • A integração com o Azure Active Directory permite-lhe executar soluções completas baseadas no Azure com o Azure Databricks.Integration with Azure Active Directory enables you to run complete Azure-based solutions using Azure Databricks.
  • O acesso baseado em funções do Azure Databricks ativa permissões de utilizador detalhadas para blocos de notas, clusters, tarefas e dados.Azure Databricks roles-based access enables fine-grained user permissions for notebooks, clusters, jobs, and data.
  • SLAs de nível empresarial.Enterprise-grade SLAs.

Integração com os serviços do AzureIntegration with Azure services

O Azure Databricks integra-se profundamente com arquivos e bancos de dados do Azure: SQL Data Warehouse, o Cosmos DB, o Data Lake Store e o armazenamento de Blobs.Azure Databricks integrates deeply with Azure databases and stores: SQL Data Warehouse, Cosmos DB, Data Lake Store, and Blob Storage.

Integração com o Power BIIntegration with Power BI

Através da forte integração com o Power BI, o Azure Databricks permite-lhe detetar e partilhar as suas informações importantes de forma rápida e fácil.Through rich integration with Power BI, Azure Databricks allows you to discover and share your impactful insights quickly and easily. Também pode utilizar outras ferramentas de BI, com o Tableau Software através de pontos finais de cluster JDBC/ODBC.You can use other BI tools as well, such as Tableau Software via JDBC/ODBC cluster endpoints.

Passos SeguintesNext steps