ML Studio 中的机器学习模块 (经典) 模块

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

机器学习的典型工作流包括多个阶段:

  • 确定要解决的问题和用于衡量结果的指标。

  • 查找、清理和准备适当的数据。

  • 确定最佳特征和工程新功能。

  • 生成、评估和优化模型。

  • 使用模型生成预测、建议和其他结果。

本部分中的模块提供了机器学习的最后阶段的工具,在此阶段,你将算法应用于数据以训练模型。 在这些最终阶段,还会生成分数,然后评估模型的准确性和有用性。

注意

适用于:机器学习 Studio (经典) 应用

可在 Azure 机器学习设计器中获取类似的拖放模块。

按类别列出机器学习任务

  • 初始化模型

    从各种可自定义的机器学习算法中选择,包括聚类分析回归、分类和异常情况检测模型。

  • 训练

    向配置的模型提供数据以从模式中学习,并创建可用于预测的统计信息。

  • 评分

    使用训练的模型创建预测。

  • 评估

    度量已训练模型的准确性,或比较多个模型。

有关此实验性工作流的详细说明,请参阅 信用风险解决方案演练

先决条件

在进入生成模型的有趣部分之前,通常需要进行大量准备工作。 本部分提供指向 机器学习 Studio (经典) 中的工具的链接,这些工具可帮助你清理数据、提高输入质量并防止运行时错误。

数据浏览和数据质量

确保数据是所选算法的合适数据类型、正确的数量和适当的质量。 了解你拥有多少数据,以及数据的分布方式。 是否存在离群值? 这些是如何生成的,它们的含义是什么? 是否存在任何重复记录?

处理缺失值

缺失值会在多个方面影响结果。 例如,几乎所有的统计方法都会丢弃具有缺失值的用例。 默认情况下,机器学习遇到缺失值的行时,将遵循以下规则:

  • 如果用来训练模型的数据具有缺失值,则跳过具有缺少值的所有行。

  • 如果在对模型评分时用作输入的数据缺少值,则缺失值将用作输入,但会传播 null 值。 这通常意味着在结果中插入 null,而不是有效的预测。

在训练模型之前,请务必检查数据。 若要计算缺失值或更正数据,请使用以下模块:

选择特征并减少维数

机器学习 Studio (经典) 可帮助你筛选数据以查找最有用的属性。

  • 使用"线性 线性 离散分析"或" 基于 筛选器的特征选择"等工具确定哪些数据列具有最大的预测能力。 这些工具还可以标识由于数据泄漏而应删除的列。

  • 基于现有数据创建或设计特征。 规范化数据将数据分组到 箱中,以对数据进行新的分组,或在分析之前标准化数值的范围。

  • 通过分组 分类值、使用主体组件分析或采样 减少 维度

示例

有关机器学习运行中的示例,请参阅Azure AI 库。

有关一些典型数据准备任务的提示和演练,请参阅执行 Team Data Science Process 的演练

另请参阅