您现在访问的是微软AZURE全球版技术文档网站,若需要访问由世纪互联运营的MICROSOFT AZURE中国区技术文档网站,请访问 https://docs.azure.cn.

Azure Synapse Analytics 术语

本文档介绍了 Azure Synapse Analytics 的基本概念。

基础

Synapse 工作区是用于在 Azure 中执行基于云的企业分析的安全协作边界。 工作区部署在特定的区域中,并有关联的 ADLS Gen2 帐户和文件系统(用于存储临时数据)。 工作区位于资源组下。

通过工作区,可以使用 SQL 和 Apache spark 执行分析。 可用于 SQL 和 Spark 分析的资源将组织到 SQL 和 Spark 池中。

链接服务

工作区可包含任意数量的链接服务,它们实质上是定义工作区在连接到外部资源时所需的连接信息的连接字符串。

Synapse SQL

Synapse SQL 用于在 Synapse 工作区中执行基于 T-SQL 的分析。 Synapse SQL 有两种使用模型:专用模型和无服务器模型。 对于专用模型,请使用专用 SQL 池。 一个工作区可以有任意数量的这些池。 若要使用无服务器模型,请使用无服务器 SQL 池。 每个工作区都有这些池之一。

在 Synapse Studio 中,可通过运行 SQL 脚本来使用 SQL 池。

Apache Spark for Synapse

若要使用 Spark 分析,请在 Synapse 工作区中创建并使用无服务器 Apache Spark 池。 开始使用 Spark 池时,工作区会创建一个“spark 会话”来处理与该会话相关的资源。

Synapse 中有两种方法使用 Spark:

  • Spark 笔记本,使用 Scala、PySpark、C# 和 SparkSQL 处理数据科学和工程的数据
  • Spark 作业定义 使用 jar 文件运行批处理 Spark 作业。

管道

管道是 Azure Synapse 提供数据集成的方式,通过它可在服务之间移动数据,并安排活动。

  • 管道是共同执行某个任务的活动的逻辑分组。
  • 活动定义要在管道中对数据执行的操作,例如复制数据、运行 Notebook 或 SQL 脚本。
  • 数据流是特定类型的活动,在使用隐藏式 Synapse Spark 进行数据转换时,可提供无代码体验。
  • 触发器 - 执行管道。 可以手动或自动(计划、翻转窗口或基于事件)运行触发器
  • 集成数据集 - 数据的命名视图,它只指向或引用要在活动中作为输入和输出使用的数据。 它属于链接服务。

数据资源管理器(预览版)

Azure Synapse 数据资源管理器为客户提供交互式查询体验,用于从日志和遥测数据中找到见解。

  • 数据资源管理器池是包含两个或更多个计算节点的专用群集,这些节点使用本地 SSD 存储(热缓存)来优化查询性能,并使用多个 Blob 存储(冷缓存)来持久保存数据。
  • 数据资源管理器数据库托管在数据资源管理器池上,是由表和其他数据库对象的集合组成的逻辑实体。 每个池可以包含多个数据库。
  • 表是数据库对象,其中包含使用传统关系数据模型进行组织的数据。 数据存储在符合数据资源管理器妥善定义的表架构的记录中,该架构定义了列的已排序列表,每个列具有名称和标量数据类型。 标量数据类型可以是结构化类型(整数、实数、日期时间或时间范围)、半结构化类型(动态),或自由文本类型(字符串) 。 动态类型类似于 JSON,因为它可以保存单个标量值、数组或此类值的字典。
  • 外部表是引用数据资源管理器数据库外部的存储或 SQL 数据源的表。 与表类似,外部表具有明确定义的架构(列名称和数据类型对的已排序列表)。 与将数据引入数据资源管理器池的数据资源管理器表不同,外部表是对在池外部存储和管理的数据运行的。 外部表不保存任何数据,用于查询数据或将数据导出到外部数据存储。

后续步骤