Microsoft 关联算法

Microsoft 关联算法是指 Microsoft SQL Server 2005 Analysis Services (SSAS) 提供的关联算法,对建议引擎非常有用。建议引擎根据客户已购买的项或者客户已对其表现出兴趣的项向他们推荐产品。Microsoft 关联算法对市场篮分析也非常有用。有关市场篮分析的详细信息,请参阅“数据挖掘教程”中的第 4 课:生成市场篮方案

关联模型基于包含各事例的标识符及各事例所包含项的标识符的数据集生成。事例中的一组项称为“项集”。关联模型由事例中一系列项集和说明这些项如何分组的规则组成。算法标识的规则可用于根据客户购物车中已有的项来预测客户将来可能购买的产品。以下关系图显示了项集中的一系列规则。

关联模型的一组规则

正如该关系图中所示,Microsoft 关联算法可能会在数据集中找到许多规则。该算法使用两个参数(support 和 probability)来说明项集以及该算法生成的规则。例如,如果 X 和 Y 表示购物车中可能有的两个项,则 support 参数是数据集中包含 X 和 Y 这两项组合的事例的数目。通过将 support 参数与用户定义的 MINIMUM_SUPPORT 和 MAXIMUM_SUPPORT 参数结合使用,该算法可控制生成的项集数。probability 参数也称为“置信度”,表示数据集中既包含 X 也包含 Y 的一部分事例。通过将 probability 参数与 MINIMUM_PROBABILITY 参数结合使用,该算法可控制生成的规则数。

示例示例

Adventure Works Cycle 公司正在重新设计其网站的功能。重新设计的目的是提高产品的零售量。由于该公司在事务数据库中记录了每个销售,因此它们可以使用 Microsoft 关联算法来标识倾向于集中购买的产品集。然后,它们可以根据客户购物篮中已有的项预测客户可能感兴趣的其他项。 数据挖掘论坛

算法的原理算法的原理

Microsoft 关联算法遍历数据集以查找同时出现在某个事例中的项。然后,该算法将最少出现了由 MINIMUM_SUPPORT 参数指定的最少事例数次数的关联项分为项集。例如,项集可以为“Mountain 200=Existing, Sport 100=Existing”,并且支持的数目可以为 710,那么该算法将根据项集生成规则。可以使用这些规则根据是否存在该算法标识为重要项的其他特定项,预测数据库中的某项是否存在。例如,某规则可以为“if Touring 1000=existing and Road bottle cage=existing, then Water bottle=existing”,并且其概率可能为 0.812。在此例中,该算法发现由于购物篮中存在 Touring 1000 轮胎和水壶套,因此预测购物篮中也可能存在水壶。 数据挖掘论坛

使用算法使用算法

关联模型必须包含一个键列、多个输入列以及一个可预测列。输入列必须为离散列。关联模型的输入数据通常包含在两个表中。例如,一个表可能包含客户信息,而另一个表可能包含客户购物情况。您可以使用嵌套表将该数据输入到模型中。有关嵌套表的详细信息,请参阅

Microsoft 关联算法支持下表中列出的特定输入列内容类型、可预测列内容类型以及建模标志。 数据挖掘工具

输入列内容类型 数据挖掘工具

Cyclical、Discrete、Discretized、Key、Table 和 Ordered 数据挖掘论坛

可预测列内容类型 数据挖掘工具

Cyclical、Discrete、Discretized、Table 和 Ordered 数据挖掘论坛

建模标志

数据挖掘论坛

MODEL_EXISTENCE_ONLY 和 NOT NULL 数据挖掘研究院

所有 Microsoft 算法均支持一些通用的函数。但是,Microsoft 关联算法还支持下表中列出的其他函数。 数据挖掘论坛

IsDescendant 数据挖掘交友

PredictHistogram 数据挖掘交友

IsInNode

数据挖掘实验室

PredictNodeId

数据挖掘研究院

PredictAdjustedProbability 数据挖掘论坛

PredictProbability 数据挖掘论坛

PredictAssociation

数据挖掘研究院

PredictSupport

数据挖掘交友

有关对所有 Microsoft 算法都通用的函数列表,请参阅数据挖掘算法。有关如何使用这些函数的详细信息,请参阅数据挖掘扩展插件 (DMX) 函数参考

Microsoft 关联算法不支持使用预测模型标记语言 (PMML) 创建挖掘模型。 数据挖掘研究院

Microsoft 关联算法支持数个影响生成的挖掘模型的性能和准确性的参数。下表对各参数进行了说明: 数据挖掘工具

参数 说明

MINIMUM_SUPPORT 数据挖掘交友

指定在该算法生成规则之前必须包含项集的事例的最小数目。将该值设置为小于 1 将指定最小事例数作为事例总计的百分比。将该值设置为大于 1 的整数将指定最小事例数作为必须包含项集的事例的绝对数。如果内存有限,则该算法可能会增大此参数的值。

默认值为 0.03。

MAXIMUM_SUPPORT

指定支持项集的事例的最大数目。如果该值小于 1,则表示事例总计的百分比。大于 1 的值表示可以包含项集的事例的绝对数。

数据挖掘工具

默认值为 1。

数据挖掘工具

MINIMUM_ITEMSET_SIZE 数据挖掘实验室

指定一个项集中允许的最小项数。 数据挖掘工具

默认值为 1。

MAXIMUM_ITEMSET_SIZE

数据挖掘工具

指定一个项集中允许的最大项数。将该值设置为 0 将指定对项集的大小没有限制。 数据挖掘研究院

默认值为 3。 数据挖掘工具

MAXIMUM_ITEMSET_COUNT 数据挖掘论坛

指定要生成的最大项集数。如果未指定数目,则该算法将生成所有可能的项集。

数据挖掘交友

默认值为 200000。

MINIMUM_PROBABILITY 数据挖掘论坛

指定规则为 True 的最小概率。例如,将该值设置为 0.5 将指定不生成概率小于百分之五十的规则。 数据挖掘论坛

默认值为 0.4。 数据挖掘研究院

OPTIMIZED_PREDICTION_COUNT 数据挖掘交友

定义为进行预测而需要缓存或优化的项数。

数据挖掘交友

嵌套表
[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:拟周期及其关联规则采掘的研究与实现
下一篇:Market Basket Analysis
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • 数据挖掘-支持度
  • 本科毕业论文中关联规则挖掘的简介
  • 关联规则进行数据挖掘
  • 关联规则挖掘算法综述
  • 超市事务数据库挖掘关联规则的设计
  • 关联规则挖掘在保险业务中的应用
  • Microsoft 关联算法
  • 基于空间分析的空间关联规则提取
  • 关联规则的自动综合评价方法
  • Market Basket Analysis
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • Market Basket Analysis
  • 关联规则的自动综合评价方法
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静