什么是 Microsoft Fabric 中的数据科学?

Microsoft Fabric 可提供数据科学体验,支持用户完成端到端数据科学工作流,以实现数据扩充和获取业务见解。 你可以完成整个数据科学过程中的各种活动,从数据浏览、准备和清理到试验、建模、模型评分和向 BI 报表提供预测性见解。

Microsoft Fabric 用户可以访问数据科学主页。 用户可以在主页中发现和访问各种相关资源。 例如,他们可以创建机器学习试验、模型和笔记本。 还可以在数据科学主页上导入现有笔记本。

数据科学主页的屏幕截图。

你可能知道典型的数据科学过程的工作原理。 作为一个众所周知的过程,大多数机器学习项目都会遵循它。

概括说来,该过程涉及以下步骤:

  • 问题表述和构思
  • 数据发现和预处理
  • 试验和建模
  • 扩充和实施
  • 获取见解

数据科学过程关系图。

本文从数据科学过程的角度介绍了 Microsoft Fabric 数据科学功能。 对于数据科学过程中的每个步骤,本文总结了可以提供帮助的 Microsoft Fabric 功能。

问题表述和构思

Microsoft Fabric 中的数据科学用户与业务用户和分析师在同一平台上工作。 因此,跨不同角色的数据共享和协作变得更加无缝。 分析师可以轻松地与数据科学从业者共享 Power BI 报表和数据集。 借助 Microsoft Fabric 中角色之间协作的便利性,可以更轻松地在问题表述阶段进行移交。

数据发现和预处理

Microsoft Fabric 用户可以使用湖屋项与 OneLake 中的数据进行交互。 湖屋可轻松连接到笔记本,以便浏览数据并与之交互。

用户可以轻松地将数据从湖屋直接读取到 Pandas 数据帧中。 对于探索而言,这使得从 OneLake 无缝读取数据成为可能。

通过数据集成管道(Microsoft Fabric 的本机集成组件),可将一组功能强大的工具用于数据引入和数据业务流程管道。 易于构建的数据管道可以访问数据并将其转换为机器学习可以使用的格式。

数据研究

机器学习过程中的一个重要部分是通过浏览和可视化来了解数据。

根据数据的存储位置,Microsoft 提供了一组不同的工具来浏览和准备用于分析和机器学习的数据。 笔记本成为了数据浏览入门的最快方法之一。

用于数据准备的 Apache Spark 和 Python

Microsoft Fabric 提供了大规模转换、准备和浏览数据的功能。 借助 Spark,用户可以利用 PySpark/Python、Scala 和 SparkR/SparklyR 工具进行大规模数据预处理。 功能强大的开放源代码可视化库可以增强数据探索体验,以帮助更好地了解数据。

用于无缝数据清理的数据整理器

Microsoft Fabric Notebook 体验添加了使用数据整理器的功能,它是一种用于准备数据和生成 Python 代码的代码工具。 借助此体验,可以轻松地加速执行繁琐且单调的任务(例如,数据清理),并通过生成的代码构建可重复性和自动化。 要详细了解数据整理器,请参阅本文档的数据整理器部分。

试验和 ML 建模

借助 PySpark/Python、SparklyR/R 等工具,笔记本可以处理机器学习模型训练。

ML 算法和库可以帮助训练机器学习模型。 库管理工具可以安装这些库和算法。 因此,用户可以选择利用各种常用的机器学习库在 Microsoft Fabric 中完成 ML 模型训练。

此外,Scikit Learn 等常用库也可以开发模型。

MLflow 试验和运行可以跟踪 ML 模型训练。 Microsoft Fabric 提供了内置的 MLflow 体验,用户可以与之交互,以记录试验和模型。 详细了解如何使用 MLflow 在 Microsoft Fabric 中跟踪试验和管理模型。

SynapseML

SynapseML(以前称为 MMLSpark)开放源代码库由 Microsoft 拥有和维护,可简化大规模可缩放的机器学习管道创建。 作为工具生态系统,它向多个新方向扩展了 Apache Spark 框架。 SynapseML 将多个现有机器学习框架和新 Microsoft 算法统一为一个可缩放的 API。 开放源代码 SynapseML 库包含丰富的 ML 工具生态系统,可用于开发预测性模型和利用 Azure AI 服务中预先训练的 AI 模型。 详细了解 SynapseML

扩充和实施

笔记本可以使用适用于预测的开放源代码库或 Microsoft Fabric 可缩放通用 Spark 预测函数处理机器学习模型批量评分,该函数支持 Microsoft Fabric 模型注册表中的 MLflow 打包模型。

获取见解

在 Microsoft Fabric 中,可以使用 Power BI Direct Lake 模式轻松地将预测值写入 OneLake,并从 Power BI 报表无缝使用。 借助此功能,数据科学从业者可以非常轻松地与利益干系人分享其工作成果,并且此功能也简化了操作。

可以使用笔记本计划功能来计划运行包含批量评分的笔记本。 批量评分也可以作为数据管道活动或 Spark 作业的一部分进行计划。 Power BI 会自动获取最新预测,而无需加载或刷新数据,这要归功于 Microsoft Fabric 中的 Direct Lake 模式。

重要

此功能目前为预览版

数据科学家和企业分析师需要花费大量时间尝试了解、清理和转换数据,然后才能开始任何有意义的分析。 业务分析师通常使用语义模型,并将其领域知识和业务逻辑编码为 Power BI 度量值。 另一方面,数据科学家可以使用相同的数据,但通常在不同的代码环境或语言中。

借助语义链接(预览版),数据科学家通过 SemPy Python 库在 Power BI 语义模型和 Microsoft Fabric 中的 Synapse 数据科学体验之间建立连接。 当用户对语义模型执行各种转换时,SemPy 通过捕获和利用数据语义来简化数据分析。 通过利用 Semantic Link,数据科学家可以:

  • 避免需要在代码中重新实现业务逻辑和域知识
  • 在代码中轻松访问和使用 Power BI 度量值
  • 使用语义为新体验提供支持,例如语义函数
  • 浏览和验证数据之间的功能依赖性和关系

通过使用 SemPy,组织可能会看到:

  • 生产力提高,相同数据集上运行的团队之间的协作速度加快
  • 跨商业智能和 AI 团队的交叉协作得到加强
  • 在载入新模型或数据集时,减少了歧义且更易掌握

有关语义链接的详细信息,请参阅什么是语义链接(预览版)?