什么是 Databricks Data Science & Engineering?

Databricks Data Science Engineering (有时称为"工作区 & ",) 是基于数据分析分析Apache Spark。 它与 Azure 集成,以提供一键式安装程序、简化的工作流程以及交互式工作区,从而使数据工程师、数据科学家和机器学习工程师之间可以进行协作。

什么是Azure Databricks?

使用大数据管道时,原始或结构化的数据将通过 Azure 数据工厂以批的形式引入 Azure,或者通过 Apache Kafka、事件中心或 IoT 中心进行准实时的流式传输。 此数据将驻留在 Data Lake(长久存储)、Azure Blob 存储或 Azure Data Lake Storage 中。 在运行分析工作流的过程中,可以使用 Azure Databricks 从 Azure Blob 存储Azure Data Lake StorageAzure Cosmos DBAzure SQL 数据仓库等多个数据源读取数据,并使用 Spark 将数据转化为前所未有的见解。

Databricks 管道

Apache Spark 分析平台

Databricks Data Science & Engineering 包含完整的开源Apache Spark群集技术和功能。 Databricks Data Science Engineering 中的 Spark & 包括以下组件:

Apache Spark Azure Databricks Apache Spark

  • Spark SQL 和数据帧:Spark SQL 是用于处理结构化数据的 Spark 模块。 数据帧是已组织成命名列的分布式数据集合。 它在概念上相当于关系型数据库中的表,或 R/Python 中的数据帧。

  • 流式处理:实时数据处理和分析,适用于分析与交互式应用程序。 与 HDFS、Flume 和 Kafka 集成。

  • MLlib:由常见学习算法和实用工具(包括分类、回归、群集、协作筛选、维数约简以及底层优化基元)组成的机器学习库。

  • GraphX:图形和图形计算,适用于从认知分析到数据探索的广泛用例。

  • Spark Core API:包含对 R、SQL、Python、Scala 和 Java 的支持。

Azure Databricks 中的 Apache Spark

Azure Databricks 构建在 Spark 功能的基础之上,提供一个无管理云平台,其中包括:

  • 完全托管的 Spark 群集
  • 可浏览和可视化数据的交互式工作区
  • 一个为你喜爱的 Spark 应用程序提供支持的平台

在云中完全托管的 Apache Spark 群集

Azure Databricks 在云中拥有安全可靠的生产环境,由 Spark 专家进行管理和提供支持。 可以:

  • 在几秒钟内创建群集。
  • 动态自动扩展和缩减群集并在团队中共享群集。
  • 通过调用 REST API 以编程方式使用群集。
  • 使用基于 Spark 的安全数据集成功能,在无需集中化的情况下统一数据。
  • 即时获得每个版本中的最新 Apache Spark 功能。

Databricks Runtime

Databricks 运行时构建在 Apache Spark 的基础之上,是针对 Azure 云以原生方式构建的。

Azure Databricks 通过高度抽象化彻底消除了基础结构复杂性,无需专业知识就能设置和配置数据基础结构。

对于关注生产作业性能的数据工程师而言,Azure Databricks 通过 I/O 层和处理层 (Databricks I/O) 的各种优化提供了一个更快速、更高效的 Spark 引擎。

实现协作的工作区

Databricks Data Science Engineering 通过协作和集成环境简化了在 Spark 中浏览数据、原型制作和运行数据 & 驱动应用程序的过程。

  • 通过简单的数据浏览确定如何使用数据。
  • 在以 R、Python、Scala 或 SQL 编写的笔记本中记录进度。
  • 几步内即可实现数据可视化,可使用熟悉的工具,例如 Matplotlib、ggplot 或 d3。
  • 使用交互式仪表板创建动态报告。
  • 在使用 Spark 的同时与数据交互。

企业安全性

Azure Databricks 提供企业级的 Azure 安全性,包括 Azure Active Directory 集成、基于角色的控制,以及可保护数据和业务的 SLA。

  • 与 Azure Active Directory 集成后,可以使用 Azure Databricks 运行基于 Azure 的完整解决方案。
  • Azure Databricks 基于角色的访问可以细化用户对笔记本、群集、作业和数据的权限。
  • 企业级 SLA。

重要

Azure Databricks 是部署在全局 Azure 公有云基础结构上的 Microsoft Azure 第一方服务。 服务组件之间的所有通信(包括控制平面和客户数据平面中的公共 IP 之间的通信)都留在 Microsoft Azure 网络主干内进行。 另请参阅 Microsoft 全球网络

与 Azure 服务集成

Databricks Data Science Engineering 与 Azure 数据库和存储深度集成:Synapse Analytics、Cosmos & DB、Data Lake Store和 Blob 存储。

与 Power BI 集成

Databricks 数据科学Power BI与数据科学的丰富集成,可让你快速轻松地发现和共享具有影响力的 & 见解。 还可以使用其他 BI 工具,例如 Tableau 软件。

后续步骤