选择参数优化机器学习工作室（经典）中的算法

项目
11/29/2017

适用于：适用于. 机器学习工作室（经典）不适用于. Azure 机器学习

重要

对机器学习工作室（经典）的支持将于 2024 年 8 月 31 日结束。建议在该日期之前转换到 Azure 机器学习。

从 2021 年 12 月 1 日开始，你将无法创建新的机器学习工作室（经典）资源。在 2024 年 8 月 31 日之前，可继续使用现有的机器学习工作室（经典）资源。

请参阅有关将机器学习项目从 ML 工作室（经典）移到 Azure 机器学习的信息。
详细了解 Azure 机器学习

ML 工作室（经典）文档即将停用，将来可能不会更新。

本主题介绍如何为机器学习工作室（经典）中的算法选择合适的超参数集。大多数机器学习算法使用参数来设置。训练模型时，需要为这些参数提供值。经过训练的模型效力取决于选择的模型参数。查找最佳参数集的过程称为模型选择。

有多种方法可选择模型。在机器学习中，交叉验证是模型选择中最广泛使用的方法之一，并且是机器学习工作室（经典）中的默认模型选择机制。由于机器学习工作室（经典）支持 R 和 Python，因此你始终可以使用 R 或 Python 执行其自己的模型选择机制。

查找最佳参数集有四个步骤：

定义参数空间：对于算法，首先决定要考虑的确切参数值。
定义交叉验证设置：决定如何为数据集选择交叉验证折叠。
定义指标：决定用于确定最佳参数集的指标，例如准确性、均方根误差、精度、撤销率或 F 分数。
训练、评估和比较：对于每个独一无二的参数值组合，交叉验证基于定义的误差指标进行执行。评估和比较后，可选择最佳模型。

下图说明了如何在机器学习工作室（经典）中执行此操作。

查找最佳参数集

定义参数空间

可在模型初始化步骤中定义参数集。所有机器学习算法的参数窗格中具有两个训练模式：单个参数和参数范围。选择参数范围模式。在参数范围模式下，可为每个参数输入多个值。可在文本框中输入以逗号分隔的值。

双类提升决策树，单个参数

或者，使用使用范围生成器定义网格的最大和最小网格点和生成的总点数。默认情况下，参数值按线性刻度生成。但是，如果“对数刻度”处于选中状态，这些值会在对数刻度中生成（即相邻点的比率是常量，而不是它们的差）。对于整数参数，可使用连字符定义范围。例如，“1-10”是指介于 1 到 10（两者均含）之间的所有整数构成参数集。也支持混合模式。例如，参数集“1-10, 20, 50”将包括整数 1-10、20 和 50。

双类提升决策树，参数范围