1.自动分类方法大致可以分为两种:
一是基于规则的方法,一般由知识库和推理机两大基础部分组成。知识库储存了从专家那里获得的关于某领域的专门知识,推理机具有推理的能力,即根据知识推导出结论,而不仅仅是简单搜索现成的答案。由于需要由知识工程师手工编制大量的推理规则,因此其开发费用是相当昂贵的。
数据挖掘论坛
二是基于数据的机器学习方法,研究从观测样本出发,寻找规律(即利用一些做好标识的训练数据自动地构造分类器),利用这些对未来样本进行预测。现有机器学习的重要理论基础之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于大数定律的结论。由于基于相对简单的机制,以及实际环境中所表现出来的良好性能,而为大部分文本自动分类系统所采用。
数据挖掘研究院
另外,按照有无训练集,自动分类方法还可以分为归类和聚类:在文本分类过程中,文本的类别可以是预先给定的,也可以是不确定的。前者对应自动分类中的自动归类,后者对应自动分类中的自动聚类。自动归类是分析被分类对象的特征,并与各种类别中对象所具有的共同特征(或一定的分类标准、分类参数)进行比较,然后将对象化归为特征最接近的一类(或最符合标准参数的一类),并赋予相应的分类号。实际上,手工分类一般根据历史的经验先定了类,于是一般分类的问题就蜕化成了归类的问题。自动聚类是从待分类对象中提出特征,然后将提出的全部特征进行比较,再根据一定的原则或需要(如类别数目的规定,或同类对象的相似或接近程度),将具有相同或相近特征的对象定义为一类,并设法使各类中包含的对象大致相等。 数据挖掘工具
2.如何对现有的分类及自动分类系统进行评价?
数据挖掘实验室
随着信息时代的来临,特别是因特网对人们生活的全面介入,信息爆炸的现实使人们越来越注重对自动分类的研究,目前,已经提出了许多理论上较为优秀的分类算法,例如支持向量机、向量空间模型、BAYES方法和决策树方法等,并已经有许多模型系统被开发出来。
表1和表2是国内个已经开发的部分系统。
数据挖掘论坛
表1:国外近年来开发的自动分类系统 数据挖掘实验室
数据挖掘实验室
表2 国内一些自动分类系统
Table 1-1 Some assistant and automatic classification systems
数据挖掘研究院