本科毕业论文中关联规则挖掘的简介
来源:
作者:互联网作品
时间:2007-02-07
点击:
1.3 关联规则的相关性分析
比如,计算机学院学生成绩库中,有15%的同学的《数据结构》和《离散数学》都是优,其中70%《数据结构》得优的同学《离散数学》的成绩是优。用数学公式表达这个关联规则就是:
数据结构(优) à离散数学(优),support=15%,confidence=70%
这样一个关联规则能够启示我们,数据结构作为计算机学院十分重要的必修课,要取得好的教学成果,必须加强其先行课程《离散数据》的重视程度。
同时,实际挖掘出来的一些关联规则,并非都是有用的,甚至是有一定的误导性。比如,40%的计算机学院02级同学的《法律基础》和《大学体育4》都是优,其中86%《法律基础》为优的同学,《大学体育4》是得的优。如果我们认为《大学体育4》是十分依靠先行课程《法律基础》,那么就是错误的。实际情况是《大学体育4》是游泳课,因为考核十分容易,90%以上的同学都拿到优。所以,《大学体育4》的成绩其实跟《法律基础》这门课程是没有必然联系的。
针对这类情况,标准的做法是通过简单的相关性分析[11],来排除这类蕴涵关系的规则。相关性的度量:
CorrA,B = P(A∪B) / (P(A)*P(B)) = P(B|A)/P(B)
很容易计算出来,区别事务A和事务B之间的相关性,将其结果小于1的,既是称之为负相关。在最后的规则产生的时候,需要删除负相关的规则。
0
最新评论共有 0 位网友发表了评论
查看所有评论
发表评论
热点关注

