如何实现中文文献的自动聚合分类

1.自动分类方法大致可以分为两种:

  一是基于规则的方法,一般由知识库和推理机两大基础部分组成。知识库储存了从专家那里获得的关于某领域的专门知识,推理机具有推理的能力,即根据知识推导出结论,而不仅仅是简单搜索现成的答案。由于需要由知识工程师手工编制大量的推理规则,因此其开发费用是相当昂贵的。

数据挖掘论坛

  二是基于数据的机器学习方法,研究从观测样本出发,寻找规律(即利用一些做好标识的训练数据自动地构造分类器),利用这些对未来样本进行预测。现有机器学习的重要理论基础之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法也多是基于大数定律的结论。由于基于相对简单的机制,以及实际环境中所表现出来的良好性能,而为大部分文本自动分类系统所采用。

数据挖掘研究院

  另外,按照有无训练集,自动分类方法还可以分为归类和聚类:在文本分类过程中,文本的类别可以是预先给定的,也可以是不确定的。前者对应自动分类中的自动归类,后者对应自动分类中的自动聚类。自动归类是分析被分类对象的特征,并与各种类别中对象所具有的共同特征(或一定的分类标准、分类参数)进行比较,然后将对象化归为特征最接近的一类(或最符合标准参数的一类),并赋予相应的分类号。实际上,手工分类一般根据历史的经验先定了类,于是一般分类的问题就蜕化成了归类的问题。自动聚类是从待分类对象中提出特征,然后将提出的全部特征进行比较,再根据一定的原则或需要(如类别数目的规定,或同类对象的相似或接近程度),将具有相同或相近特征的对象定义为一类,并设法使各类中包含的对象大致相等。 数据挖掘工具

2.如何对现有的分类及自动分类系统进行评价?

数据挖掘实验室

  随着信息时代的来临,特别是因特网对人们生活的全面介入,信息爆炸的现实使人们越来越注重对自动分类的研究,目前,已经提出了许多理论上较为优秀的分类算法,例如支持向量机、向量空间模型、BAYES方法和决策树方法等,并已经有许多模型系统被开发出来。

1和表2是国内个已经开发的部分系统。

数据挖掘论坛

1:国外近年来开发的自动分类系统 数据挖掘实验室

序号

时间

完成机构 数据挖掘实验室

完成人员 数据挖掘工具

技术特点 数据挖掘实验室

1

1994

数据挖掘研究院

At&T实验室 数据挖掘论坛

David D. Lewis 数据挖掘工具

基于非确定性的自动分类技术 数据挖掘交友

2

1996

At&T实验室

William W. Cohen 数据挖掘论坛

电子邮件的自动分类

数据挖掘工具

3

数据挖掘实验室

1997

数据挖掘工具

德国Dortmund大学计算机系

Torsten Joachims 数据挖掘研究院

基于向量空间模型的自动分类 数据挖掘研究院

4

数据挖掘交友

1997

数据挖掘实验室

美国Stanford大学计算机系

数据挖掘工具

Daphne Koller 数据挖掘工具

基于很少语料词汇的层次自动分类 数据挖掘工具

5

数据挖掘实验室

1998 数据挖掘实验室

美国Carnegie mellon大学计算机系 数据挖掘论坛

Yiming Yang 数据挖掘论坛

采用决策树等聚类算法的在线自动分类

数据挖掘研究院

6

1999 数据挖掘实验室

美国Just Research公司 数据挖掘论坛

Andrew McCallum 数据挖掘实验室

运用信息熵理论、Bayes理论等实现多类号的自动分类

数据挖掘交友

7 数据挖掘交友

1999

数据挖掘工具

美国Massachusetts大学计算机系 数据挖掘论坛

Jamie Callan

数据挖掘实验室

针对文本库的自动分类系统

8 数据挖掘研究院

1999年

数据挖掘研究院

美国IBM和Oracle公司 数据挖掘论坛

  数据挖掘研究院

为推广电子商务研制基于文本内容的电子邮件自动分类 数据挖掘实验室

9 数据挖掘研究院

1999年

Microsoft公司 数据挖掘工具

  数据挖掘论坛

为其浏览器开发基于内容属性分类的插件 数据挖掘工具

  数据挖掘实验室

2 国内一些自动分类系统

Table 1-1 Some assistant and automatic classification systems

数据挖掘研究院

完成时间

数据挖掘交友

研制人

数据挖掘论坛

单位

数据挖掘研究院

类型 数据挖掘实验室

主要技术特点 数据挖掘论坛

1986 数据挖掘论坛

朱兰娟,王永成 数据挖掘交友

上海交通大学计算机系 数据挖掘工具

自动归类系统 数据挖掘工具

类主题词表,检索类主题词累计其类归属度,据Bayes最小损失原则确定分类 数据挖掘论坛

1995

苏新宁等 数据挖掘论坛

南京大学

自动归类系统 数据挖掘研究院

主题词与类号关系表,确定权重系数,分类前控词典,停用词表

1995 数据挖掘交友

吴军 数据挖掘研究院

清华大学电子工程系

[数据挖掘工作交流] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:信息检索的核心支撑技术
下一篇:清华信息检索在TREC评测中再创佳绩
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • 信息检索的核心支撑技术
  • 信息检索研究人员推荐读物
  • 清华信息检索在TREC评测中再创佳绩
  • 如何实现中文文献的自动聚合分类
  • Resources for Text, Speech and Language
  • 基于WordNet的文本分类技术研究和实现
  • 字符串匹配的KMP算法
  • 中创软件Infor中间件助力税收信息化
  • Boyer Moore 算法
  • 中文信息处理——纵览与建议
  • 论坛最新话题
  • 正规省级、国家级别期刊征集论文稿件
  • 寻data mining cookbook 一书的配套光盘
  • 网博垂直搜索引擎完全开源版
  • 电脑也会成为火灾元凶 操作不当也会有危险
  • 网络暴力间接逼死崔真实 韩国拟立法实名上
  • 网络最流行的歌曲单良《那一场雪》推荐给大
  • 快国庆了大家怎么安排
  • 08年“铁观音秋茶”安溪铁观音,茶叶批发网
  • 快国庆了大家怎么安排
  • 世界最大规模“网格计算”网络启动
  • 相关资讯
  • 信息检索权威资料收集
  • Artificial Intelligence as Smart as Huma
  • 2nd CFP: Social Linking Track at Hyperte
  • 如何实现中文文献的自动聚合分类
  • 信息检索的核心支撑技术
  • Efficient Similarity Search over Vector
  • MARS: A Matching and Ranking System for
  • 信息检索研究人员推荐读物
  • Resources for Text, Speech and Language
  • Information Wants to be Found
  • 数据挖掘实验室资料
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静
  • mit ocw 数据挖掘相关课程连接
  • Introduction to Data Mining
  • Data Mining & Business Intelligence