基于WordNet的文本分类技术研究和实现

1           进行文本自动分类研究的原因
自有文字和书籍以来,人类就开始注意文章的分门别类和编撰目录。那些目录事实上就将文章按照内容的类别进行了分类。计算技术发展到今天,靠人来阅读互联网上信息和对网上信息做分门别类和总结已经不可能。在信息的海洋中人们需要做到的是:如何快速地找到需要的信息和有用信息。
将文本分类技术应用到搜索引擎的设计实现一个智能搜索引擎,能够大幅度地提高搜索引擎的性能。
2           文本分类的关键技术
2.1        向量空间模型
目前在信息处理方面,文本的表示主要采用向量空间模型。向量空间模型的基本思想是以向量表示文本: ,其中 为第i个特征项的权重。一般可以选择字、词或词组作为特征项。
2.2        特征提取
由文本得到文本特征向量,要经历一个特征提取的过程。特征提取,就是将文本中对表达文本所属类别有比较强说服力的词汇从文本中抽取出来,形成一个向量。
特征提取需要去掉对表达文章类别不太重要的词汇。通常有去停用词(任意类文章都会出现的词或者没有什么含义的词,如:“的”、“地”、“得”、“着”、“了”、“the”、“he”、“there”等等)、运用某些算法去掉表达能力不强的词等步骤。
2.3        机器学习方法
目前存在多种基于向量空间模型的训练算法和分类算法,如支持向量机算法、神经网络方法、最大平均熵方法、简单向量距离分类法和KNN (K最近邻居 )算法和贝叶斯方法等。系统采用的分类算法是简单向量距离分类法。
简单向量距离分类法的分类思路十分简单,根据算术平均法为每类文本集生成一个代表该类的中心向量;然后在新文本来到时,确定新文本向量,计算该向量与每类中心向量间的距离(相似度);最后判定文本属于与文本距离最近的类。具体步骤如下:
第一步:计算每类文本集的中心向量
计算方法为所有训练文本向量简单的算术平均。
第二步:新文本到来进行预处理,将文本表示为特征向量

第三步:计算新文本特征向量和每类中心向量间的相似度..........

资料全文下载

(阅读次数:


分享收藏到:  新浪ViVi 365Key网摘 Google书签 Windows Live Yahoo书签 添加到百度搜藏
上一篇:Tenth Asian Computing Science Conference Data management on   下一篇:Text Clustering using Strong Components
[本文源自互联网,版权归原作者,转摘为学习参考使用]

评论内容:(不能超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规。
匿名评论
 
数据挖掘论坛导航
资讯点击排行帮
相关资讯
数据挖掘论坛资讯

关于我们  - 网站地图 - 联系方式 - 版权申明 - 友情链接 - 使用帮助
数据挖掘研究院(www.ChinaKDD.com)
增值电信业务经营许可证编号:皖B2-20040042 文网文:[2005]027号