摘 要 讨论了关联规则分析的主观感兴趣度和客观感兴趣度方法,并将这两种方法有机结合,提出了关联规则的自动综合评价方法。该方法将评价过程自动化,以一个统一的综合指标呈现给用户,最后用实例验证了此评价方法的有效性。
关键词 知识发现;关联规则;评价;感兴趣度
在知识发现中,评价所发现的知识是一个很重要的环节,它直接影响着知识发现系统输出的数量和质量。目前对于知识发现评价方法的专门研究限于知识发现的封闭系统内部,没有在开放的系统环境下形成自动评价系统,也没有形成评价的自主性。
关联规则分析主要用于发现不同事件之间的关联性,即一事物发生时,另一事物也经常发生。它是一种比较重要的知识发现类型,目前关于它的评价方法研究集中在客观感兴趣度的研究。例如,Piatesket-Shapiro[1]提出了事件独立性方法、Symth[2]提出了J-Measure 函数等。这些方法共同的缺点是,只是利用规则的前件和后件的客观关联来评价对规则的感兴趣程度,忽视了背景知识和用户的参与。
从认知角度讲,对于所获得知识的评价是一个分层次、逐步求精、客观和主观因素相结合的复杂过程。基于此,综合客观感兴趣度和主观感兴趣度两个因素形成综合评价指标,符合人类的认知规律。
1 客观性评价指标
常用的衡量关联规则的客观性指标是支持度、可信度与相关强度。支持度度量的是规则的实用性;可信度度量的是规则的有效性;相关强度是指前件和后件之间的相关关系。如果关联规则的前件和后件是不相关的,即使规则的支持度和可信度很高也不能被用户接受为感兴趣的关联规则,只有那些前件和后件是强的正相关关系的规则才被选择进行以后的处理。A和B的出现之间的相关强度corrR依据Piatesket-Shapiro的事件独立性方法描述为:
corrRA,B=P(A∪B)/P(A)P(B) (1)
如果值小于1,则A的出现和B的出现是负相关的;如果值大于1,则A的出现和B的出现是正相关的,意味着一个的出现蕴含着另一个的出现;如果值大于1,则A的出现和B的出现是独立的,它们之间没有相关性。因此,选择相关强度作为关联规则评价的一个指标,它同时反映了规则的前件和后件的相关程度。
2 主观性评价指标
主观性评价指标主要体现用户和领域知识的参与等主观因素,包括新颖度、用户感兴趣度和简洁度三个指标
0

