项目
12/14/2010

缺少值（Analysis Services – 数据挖掘）

Missing 值可表示数据中的很多不同情况：可能表示字段不适用，事件未发生或者数据不可用。这种情况可能是输入数据的人员当时不知道正确的值，也可能是没有注意到是否未填充字段。因此，Analysis Services 提供了两种截然不同的机制，用于管理和计算这些 Missing 值（也称作 Null 值）。

如果正建模的任务指定某列一定不能有 Missing 值，则应当在定义挖掘结构时使用 NOT_NULL 建模标志。这会确保当某个事例不具有适当值时该处理将失败。如果处理模型时出现错误，您可以记录该错误，并采取步骤来更正为该模型提供的数据。有许多工具可以用来推断并填充适当的值，例如，SQL Server Integration Services 中的查找转换或数据事件探查任务，或者 Excel 数据挖掘外接程序提供的“从示例填充”工具。

但是，也有很多数据挖掘方案，在这些数据挖掘方案中 Missing 值提供了重要的信息。通常，Analysis Services 会将 Missing 值处理为信息性内容，并调整概率，以将 Missing 值包括到其计算之中。这样做即可确保模型平衡，又避免过多地偏重于现有的事例。本节介绍如何在允许 Null 值的模型中定义值并计为**“Missing”**。本主题还介绍了创建模型时数据挖掘算法的处理方式以及使用这些 Missing 值的方式。

注意
每个算法（包括可能已从第三方插件中获取的自定义算法）都可以用不同的方式处理 Missing 值。

在模型中使用 Missing 值

对于数据挖掘算法，Missing 值为信息性内容。在事例表中，Missing 与其他任何值一样为有效状态。此外，数据挖掘模型还可以使用其他值来预测某个值是否为 Missing。也就是说，值为 Missing 这种情况不会被视为错误。

创建数据挖掘模型时，对于所有离散列，Missing 状态会自动添加到模型中。例如，如果性别的输入列包含两个可能的值（男和女），将自动添加第三个值来表示 Missing 值，而且显示该列所有值分布的直方图将始终包含一个具有 Missing 值的事例的计数。如果性别列不缺少任何值，则直方图显示发现 0 个事例的状态为 Missing。

当您认为数据可能不具有所有可能值的示例，并且不希望仅仅因为数据中没有任何示例而使模型排除该可能性时，默认包含 Missing 状态是很重要的。例如，即使某商店的销售数据显示所有购买某种产品的客户恰巧都为女性，您也不希望创建一个预测只有女性才可能购买此产品的模型。相反，Analysis Services 会为额外未知的值添加占位符，称之为 Missing，作为容纳其他可能状态的一种方法。

例如，下表显示了为自行车购买者教程创建的决策树模型中的（所有）节点的值的分布。在示例方案中，[Bike Buyer] 列为可预测属性，其中，1 表示“是”，0 表示“否”。

值	事例
0	9296
1	9098
Missing	0

此分布显示大约一半的客户已经购买了自行车，而一半的客户还没有购买自行车。此特定数据集十分清晰；因此，每个事例的 [Bike Buyer] 列中都有一个值，并且 Missing 值的计数为 0。但是，只要事例的 [Bike Buyer] 字段值为 Null，Analysis Services 就会将该行计为具有 Missing 值的事例。

如果输入为连续的列，则模型将属性的两个可能的状态 Existing 和 Missing 排列成表格报表的形式。也就是说，该列或者包含某种数值数据类型的值，或者不包含任何值。对于有值的事例，模型会计算平均值、标准偏差以及其他有意义的统计。对于没有值的事例，模型将提供 Missing 值的计数并相应调整预测。调整预测的方法因算法而异，下面一节将对其进行介绍。

注意
对于嵌套表中的属性，Missing 值为非信息性内容。例如，如果某个客户未购买某种产品，则嵌套 Products 表中将不会有对应该产品的行，挖掘模型也不会为该缺少的产品创建属性。但是，如果您对未购买某种产品的客户感兴趣，则可以创建一个模型，在该模型中对嵌套表中的不存在的产品进行筛选，其方法是在模型筛选器中使用 NOT EXISTS 语句。有关详细信息，请参阅如何对挖掘模型应用筛选器。

对于嵌套表中的属性，Missing 值为非信息性内容。例如，如果某个客户未购买某种产品，则嵌套 Products 表中将不会有对应该产品的行，挖掘模型也不会为该缺少的产品创建属性。但是，如果您对未购买某种产品的客户感兴趣，则可以创建一个模型，在该模型中对嵌套表中的不存在的产品进行筛选，其方法是在模型筛选器中使用 NOT EXISTS 语句。有关详细信息，请参阅如何对挖掘模型应用筛选器。

调整 Missing 值的概率

除了对值进行计数外，Analysis Services 还计算整个数据集中的任何值的概率。这对于 Missing 值同样适用。作为示例，下表显示了前面示例中事例的概率：

值	事例	概率
0	9296	50.55%
1	9098	49.42%
Missing	0	0.03%

当事例个数为 0 时，计算得出的 Missing 值的概率为 0.03%，这好像有些奇怪。实际上，此行为是设计造成的，目的是通过这种调整使模型可以适当地处理未知值。

通常，概率计算如下：良好的事例除以所有可能的事例。在此示例中，算法计算符合某个特定条件（[Bike Buyer] = 1 或 [Bike Buyer] = 0）的事例的总和，并用该数除以总行数。但是，为了将 Missing 事例考虑在内，将 1 添加到所有可能的事例数中。因此，未知事例的概率不再为零，而是一个非常小的数，表示此状态仅仅是不大可能的状态，但不是不可能的状态。

较小的 Missing 值的添加不会更改预测因子的输出；但是，对于历史数据不包含所有可能结果的情况，使用该值可以改善建模。

注意
各个数据挖掘访问接口处理 Missing 值的方式不同。例如，某些访问接口假定嵌套列中缺少的数据为稀疏表示方式，但却假定非嵌套列中缺少的数据为随机缺少。

如果确定所有的结果均在数据中指定，并需要防止概率调整，则应对挖掘结构中的列设置 NOT_NULL 建模标志。

决策树模型中 Missing 值的特殊处理

Microsoft 决策树算法计算 Missing 值的概率的方法不同于其他算法。不是仅仅向事例总数添加 1，该决策树算法还使用稍有差别的公式来针对 Missing 状态进行调整。

在决策树模型中，Missing 状态的概率按如下公式进行计算：

StateProbability = (NodePriorProbability)* (StateSupport + 1) / (NodeSupport + TotalStates)

此外，在 SQL Server 2008 Analysis Services 中，决策树算法提供了额外的调整，可以帮助该算法补偿模型上的筛选器的存在，这可能导致在定型期间排除许多状态。

在 SQL Server 2008 中，如果在定型期间显示某种状态，但是恰巧在某个节点中有 0 支持，则将进行标准调整。但是，如果在定型期间从未遇到某种状态，该算法会将其概率精确设置为 0。此项调整不仅适用于 Missing 状态，还适用于在定型数据中存在、但模型筛选结果具有 0 支持的状态。

此额外调整产生以下公式：

StateProbability = 0.0 （如果在定型集中该状态具有 0 支持）

ELSE StateProbability = (NodePriorProbability)* (StateSupport + 1) / (NodeSupport + TotalStatesWithNonZeroSupport)

此调整的净效果是保持树的稳定性。

请参阅

概念

挖掘模型内容（Analysis Services - 数据挖掘）

建模标志（数据挖掘）

缺少值（Analysis Services – 数据挖掘）

在模型中使用 Missing 值

调整 Missing 值的概率

决策树模型中 Missing 值的特殊处理

请参阅

概念

其他资源