什么是 Microsoft Fabric 中的数据工程?

Microsoft Fabric 中的数据工程使用户能够设计、构建和维护基础结构和系统,使组织能够收集、存储、处理和分析大量数据。

Microsoft Fabric 提供各种数据工程功能,以确保数据易于访问、有条不紊且质量高。 在数据工程主页中,可以:

  • 使用湖屋创建和管理数据

  • 设计将数据复制到湖屋的管道

  • 使用 Spark 作业定义将批处理/流式处理作业提交到 Spark 群集

  • 使用笔记本编写用于数据引入、准备和转换的代码

    显示数据工程对象的屏幕截图。

Lakehouse

Lakehouse 是一种数据体系结构,它使组织可以在统一的位置存储和管理结构化和非结构化数据,并使用各种工具和框架来处理和分析这些数据。 这些工具和框架可以包括基于 SQL 的查询和分析,以及机器学习和其他高级分析技术。

Apache Spark 作业定义

Spark 作业定义是定义如何在 Spark 群集上执行作业的指令集。 它包括诸如输入和输出数据源、转换以及 Spark 应用程序的配置设置等信息。 Spark 作业定义允许将批处理/流式处理作业提交到 Spark 群集,将不同的转换逻辑应用于在湖屋上托管的数据以及许多其他功能。

笔记本

Notebooks 是一种交互式计算环境,它使用户能够创建和共享包含实时代码、公式、可视化效果和叙述性文本的文档。 它们允许用户以各种编程语言编写和执行代码,包括 Python、R 和 Scala。 可以使用笔记本执行数据引入、准备、分析和其他与数据相关的任务。

数据管道

数据管道是一系列步骤,可以收集、处理数据并将其从原始形式转换为可用于分析和决策的格式。 它们是数据工程的关键组件,因为它们提供了一种以可靠、可缩放且高效的方式将数据从源移动到目标的方法。

注册 Fabric 试用版时,可以免费使用 Microsoft Fabric 中的数据工程。 还可以购买 Microsoft Fabric 容量Fabric 预留容量

数据工程体验入门: