使用超参数改进模型

已完成

具有小型数据集的简单模型通常可以在单个步骤中拟合,而更大的数据集和更复杂的模型必须通过重复使用带有训练数据的模型,并将输出与预期标签进行比较来拟合。 如果预测足够准确,我们认为模型经过训练。 如果不够准确,我们将稍微调整模型并再次循环。

超参数是在这些循环中改变模型拟合方式的值。 例如,学习速率是一个超参数,它设置了在每个训练周期中模型调整的幅度。 较高的学习速率意味着可以更快地训练模型,但如果学习速率过高,调整可能会非常大,以至于模型永远不会“微调”,也不会达到最佳状态。

预处理数据

预处理是指在将数据传递给模型之前对数据所做的更改。 我们之前了解到预处理可能涉及到清理数据集。 虽然这很重要,但预处理还可以包括更改数据的格式,使模型更易于使用。 例如,描述为“红色”、“橙色”、“黄色”、“绿黄色”和“绿色”的数据,如果转换成更适合计算机的格式,比如表示红色和绿色数量的数字,可能效果会更好。

缩放功能

最常见的预处理步骤是缩放功能,使其介于 0 和 1 之间。 例如,一辆自行车的重量和一个人骑自行车旅行的距离可能是两个完全不同的数字,但通过将这两个数字缩放在 0 和 1 之间,可以让模型更有效地从数据中学习。

将类别用作功能

在机器学习中,还可以使用分类特征,例如“自行车”、“滑板”或“汽车”。这些特征在独热矢量中由 0 或 1 值表示,矢量的每个可能值为 0 或 1。 例如,自行车、滑板和汽车可能分别为 (1,0,0)、(0,1,0) 和 (0,0,1)。