数据挖掘算法(Analysis Services – 数据挖掘)

“数据挖掘算法”是创建数据挖掘模型的机制。为了创建模型,算法将首先分析一组数据并查找特定模式和趋势。算法使用此分析的结果来定义挖掘模型的参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。

算法创建的挖掘模型可以采用多种形式,这包括:

  • 说明在交易中如何将产品分组到一起的一组规则。

  • 预测特定用户是否会购买某个产品的决策树。

  • 预测销量的数学模型。

  • 说明数据集中的事例如何相关的一组分类。

MicrosoftSQL ServerAnalysis Services 提供了几个供您在数据挖掘解决方案中使用的算法。这些算法是所有可用于数据挖掘的算法的子集。您还可以使用符合 OLE DB for Data Mining 规范的第三方算法。有关第三方算法的详细信息,请参阅插件算法

数据挖掘算法的类型

Analysis Services 包括了以下算法类型:

  • 分类算法基于数据集中的其他属性预测一个或多个离散变量。分类算法的一个示例是 Microsoft 决策树算法

  • 回归算法基于数据集中的其他属性预测一个或多个连续变量,如利润或亏损。回归算法的一个示例是 Microsoft 时序算法

  • 分割算法将数据划分为组或分类,这些组或分类的项具有相似属性。分割算法的一个示例是 Microsoft 聚类分析算法

  • 关联算法查找数据集中的不同属性之间的相关性。这类算法最常见的应用是创建可用于市场篮分析的关联规则。关联算法的一个示例是 Microsoft 关联算法

  • 顺序分析算法汇总数据中的常见顺序或事件,如 Web 路径流。顺序分析算法的一个示例是 Microsoft 顺序分析和聚类分析算法

应用算法

为特定的业务任务选择最佳算法很有挑战性。您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。例如,您不仅可以将 Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。

您也不必单独使用算法。在一个数据挖掘解决方案中,可以使用一些算法来研究数据,然后使用其他算法,基于这些数据预测特定结果。例如,可以使用聚类分析算法来识别模式,将数据细分成多少有点相似的组,然后使用分组结果来创建更好的决策数模型。可以在一个解决方案中使用多个算法来执行不同的任务,例如,使用回归树算法来获取财务预测信息,使用基于规则的算法来执行市场篮分析。

挖掘模型可以预测值、生成数据摘要并查找隐含的相关性。为帮助您选择用于数据挖掘解决方案的算法,下表给出了可为特定的任务使用哪些算法的建议。

任务

可使用的 Microsoft 算法

预测离散属性。

例如,预测目标邮递活动的收件人是否会购买某个产品。

Microsoft 决策树算法

Microsoft Naive Bayes 算法

Microsoft 聚类分析算法

Microsoft 神经网络算法

预测连续属性

例如,预测下一年的销售额。

Microsoft 决策树算法

Microsoft 时序算法

预测顺序

例如,执行公司网站的点击流分析。

Microsoft 顺序分析和聚类分析算法

查找交易中常见项的组

例如,使用市场篮分析来建议客户购买其他产品。

Microsoft 关联算法

Microsoft 决策树算法

查找相似项的组

例如,将人口统计数据分组以便更好地理解属性之间的关系。

Microsoft 聚类分析算法

Microsoft 顺序分析和聚类分析算法

因为各个模型返回不同类型的结果,所以 Analysis Services 为每个算法提供单独的查看器。在 Analysis Services 中浏览挖掘模型时,数据挖掘设计器为该模型选用相应的模型查看器,该模型显示在数据挖掘设计器的**“挖掘模型查看器”**选项卡上。有关详细信息,请参阅查看数据挖掘模型

算法详细信息

下表提供了适用于每种算法的信息类型的链接:

  • 基本算法说明提供了对算法用途和工作原理的基本说明,以及该算法非常有用的业务方案。

  • 技术参考 列出了可在模型中设置以便控制算法行为并自定义结果的参数。提供有关算法实现、性能提示和数据要求的其他技术详细信息。

  • 查询模型 给出了可用于每个模型类型的查询的示例。可以查询模型以了解该模型中的模式的更多信息,或根据这些模式做出预测。

  • 挖掘模型内容 说明了如何在所有模型类型的通用结构中存储信息,并介绍了如何解释这些信息。生成模型后,可以使用 BI Development Studio 中提供的查看器浏览该模型,或者可以编写查询以使用 DMX 直接从该模型内容返回信息。

基本算法说明

技术参考

查询

挖掘模型内容

Microsoft 关联算法

Microsoft 关联算法技术参考-

查询关联模型(Analysis Services – 数据挖掘)

关联模型的挖掘模型内容(Analysis Services – 数据挖掘)

Microsoft 聚类分析算法

Microsoft 聚类分析算法技术参考

查询聚类分析模型(Analysis Services - 数据挖掘)

聚类分析模型的挖掘模型内容(Analysis Services – 数据挖掘)

Microsoft 决策树算法

Microsoft 决策树算法技术参考

查询决策树模型(Analysis Services - 数据挖掘)

决策树模型的挖掘模型内容(Analysis Services - 数据挖掘)

Microsoft 线性回归算法

Microsoft 线性回归算法技术参考

查询线性回归模型(Analysis Services - 数据挖掘)

线性回归模型的挖掘模型内容(Analysis Services - 数据挖掘)

Microsoft 逻辑回归算法

Microsoft 逻辑回归算法技术参考

查询逻辑回归模型(Analysis Services - 数据挖掘)

逻辑回归模型的挖掘模型内容(Analysis Services - 数据挖掘)

Microsoft Naive Bayes 算法

Microsoft Naive Bayes 算法技术参考

查询 Naive Bayes 模型(Analysis Services - 数据挖掘)

Naive Bayes 模型的挖掘模型内容(Analysis Services - 数据挖掘)

Microsoft 神经网络算法

Microsoft 神经网络算法技术参考

查询神经网络模型(Analysis Services - 数据挖掘)

神经网络模型的挖掘模型内容(Analysis Services - 数据挖掘)

Microsoft 顺序分析和聚类分析算法

Microsoft 顺序分析和聚类分析算法技术参考

查询顺序分析和聚类分析模型(Analysis Services - 数据挖掘)

顺序分析和聚类分析模型的挖掘模型内容(Analysis Services - 数据挖掘)

Microsoft 时序算法

Microsoft 时序算法技术参考

查询时序模型(Analysis Services - 数据挖掘)

时序模型的挖掘模型内容(Analysis Services - 数据挖掘)