RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎
当前位置 :| 首页>人工智能>信息检索>

让企业不再“眼花”——企业信息检索技术初探

来源: 作者:unkonwn 时间:2004-12-01 点击:
社会的进步使企业面临空前膨胀的信息量,如何在浩如烟海的信息中找到自己需要的内容,这便是信息检索技术需要解决的问题。提到信息检索很多人脑子里就会浮现“Google”,然而,搜索引擎和企业信息检索系统之间
还存在着诸多差别。那么,企业对信息检索有什么特殊要求呢?国内的检索厂商又是如何帮助企业摆脱眼花缭乱的信息“负担”呢?

  数据挖掘实验室

  数据挖掘研究院

存储和分词是文本检索的核心 数据挖掘研究院

 

检索的关键在于存储和分词。好的检索系统需要好的组织,所谓结构检索,就是首先对信息进行良好的组织和结构化,将所有的信息文档按照统一的方式进行标识、存储和索引。在此基础上,利用文档中的结构化描述实现高精度的检索。 数据挖掘研究院

 

数据挖掘研究院

而分词则是创建索引和理解用户检索需求的关键,其理想结果是要将信息的全文内容分成一个一个的词语,并记录下每个词语在文章中出现的次数。当用户采用词索引进行检索时,则可以直接根据这些记录判断哪篇文章最符合用户的需求。 数据挖掘研究院

 

数据挖掘研究院

对于中文信息检索,分词是最困难的,这也是造成中文检索明显落后于西文检索的主要原因。究其根源,一方面是因为中文信息有自身的特点,例如中文词语之间没有空格;另一方面,汉语的句法分析和语义理解也更为困难。但是,随着国内中文检索技术多年的发展,虽然做到100%的准确分词还比较困难(事实上,它是一个极限的概念,永远也达不到100%的准确),但可以说分词算法已经日趋成熟。而在算法一定的情况下,分词的准确与否更多地取决于词库的完备程度。词库的建立虽然没有太高的技术门槛,但它却是一个高成本的工作,一方面,它需要人工不断地进行校对、调整和积累;另一方面,不同的行业、学科领域也需要有不同的词库。 数据挖掘研究院

  数据挖掘研究院

企业对检索系统有特殊的要求

数据挖掘研究院

  数据挖掘实验室

每一个企业的信息资源无论是在存储格式上还是在存储方式上都不尽相同,如果每一类信息都单独建立一套检索系统,显然是不合适的,不仅费时费力,而且不同类型的信息之间也缺乏横向联系,大大影响资源的利用率。 数据挖掘研究院

  数据挖掘研究院

“为企业用户提供高效、灵活、准确的检索系统,这是对检索产品提供商的基本要求,因为目前已有的中文检索技术已经相当成熟,要在技术上取得质的突破,并非朝夕之功。即使目前在国内处于技术领先地位的TRS和龙卷风公司,和其他处于第二类的公司相比,在技术上相差也不大,总体影响度不超过10%。”龙卷风公司产品部副经理张小迎在接受采访时指出:“企业信息检索的关键在于如何对各种格式、各个时期、各种应用的异构环境下的复杂数据源进行整合。同时,信息检索系统为了更好地服务于企业,它必须能够与企业现有应用系统进行无缝链接,例如,与门户网站、ERP系统、CRM系统等的链接。” 数据挖掘实验室

  数据挖掘研究院

另外,TRS信息技术有限公司市场部经理何东炯认为,相对于搜索引擎,企业信息检索除了要求对多种信息源进行整合以外,还存在以下三个方面的特点:其一,企业信息检索系统面向的信息量要远远小于搜索引擎所面向的信息量,因此,企业在构建信息检索系统时并不需要服务器集群等复杂技术;其二,企业并不需要搜索引擎的链接分析技术,它更多的是需要对文件进行相关性、相似性等方面的挖掘和分析;其三,由于运营模式的区别,企业对实时性的要求更高,需要系统能够实时进行索引的更新和优化。 数据挖掘实验室

智能化、全息化是发展趋势 数据挖掘研究院

 

鉴于企业应用的特点,企业信息检索技术未来需要在两个方面有所突破。

数据挖掘研究院

 

其一,目前的大多数检索系统都是采用关键词匹配的方式进行检索,而信息检索真正需要的却是 “概念检索”,尤其是基于网络的检索系统通常采用自由词匹配,即用户任意选用词语描述自己的信息需求,在文档的全文中进行词语匹配。由于并不是文档中的任何一个词都能表达文档的内容,因此,用户所选的词也不一定是文中所用的词,尽管表达的是同一概念。因此,信息系统需要做好两方面工作才能在语义上对相同、相近、相包含的词语进行匹配:一方面是正确理解和描述文档的内容;另一方面是准确表达用户的信息检索需求。要做到这一点则需要在人工智能和自然语言理解方面做更加深入的研究。

 

数据挖掘研究院

其二,面对企业内部信息资源的复杂性,全息检索将成为另一个主流发展方向。所谓全息检索,就是指在一切形式的信息中,快速、高效地向用户提供有用的信息。它不应该仅仅停留在对数据库信息、文本信息等的检索上,还应该对多媒体数据进行全文检索。这其中如何对多媒体数据进行有效的索引、提取其中的概要片断将是多媒体检索面临的一个关键问题。因为,多媒体数据借助于视频技术和音频技术所传达的信息量是非常丰富的,目前基于文本的处理技术根本无法准确地对其进行全面描述。对多媒体数据的处理涉及到多方面的技术,例如图像处理、语音识别、自然语言理解、视频分析等。

 

数据挖掘实验室

虽然,现代意义的信息检索技术从上世纪中叶发展至今,在技术上已经取得了很大的成就,尤其是中文信息检索技术更是如日中天,近几年取得了突飞猛进的发展。但是,人类的理想是无止境的,企业的需求也是不断发展的。因此,目前的检索产品还应该在更高、更广的领域里取得更大的突破! 数据挖掘研究院

 

产品链接 数据挖掘研究院

 

数据挖掘研究院

IRMS:组件化的信息检索平台

数据挖掘实验室

  数据挖掘研究院

最近,龙卷风科技(Tornado Tech)公司推出了最新的信息整合开发平台——IRMS R2。据了解,该产品适用于 .NET、J2EE等工业标准平台,其最大的特点就是平台化和组件化。它不仅向企业用户提供了强大的SDK开发包,以便更好地与企业内部应用系统进行整合,更主要的是,它还提供了消息机制,例如,当企业内部增加某些信息的时候,可以通过消息的方式通知检索系统及时更新索引,避免定时更新所带来的延迟。 数据挖掘研究院

 

数据挖掘研究院

IRMS采用全组件化的设计,可以满足用户个性化的需求。其主要表现在两个方面。一方面,该产品提供了丰富的解析组件,可以将数据库、Web站点、Notes、文件目录等异质资料来源与数据结构进行汇整与粹取,将非结构的信息结构化,以建立统一的索引,方便信息检索与管理。尤其是对数据库的解析,通过ODBC、TDBC对数据库进行访问,可以支持多种数据库(例如,Oracle、Sql Server等),避免了为每一个数据库建立一个解析组件。对于文件的解析,该产品目前可以支持web文件、纯文本文件、MS Office文件、PDF文件、WPS文件等。该产品还提供了很多功能组件,例如信息检索、自动分类、自动摘要等功能。

 

另一方面,组件化还体现在用户可以很方便地创建新的组件。例如,用户有一套独特的存储机制,而目前还没有现成的解析组件,通过IRMS提供的解析接口,只需要编写少量的代码就可以开发出相应的解析组件,并且因为接口是一致的,可以无缝地链接到IRMS平台上。同样地,如果需要,也可以很方便地添加功能组件。

数据挖掘研究院

  数据挖掘实验室

TRS:三层体系结构的内容管理产品

数据挖掘实验室

  数据挖掘研究院

TRS信息技术有限公司推出的内容管理系列产品从体系结构上分为三个层次,包括核心技术、支持平台和行业应用,它比较全面地覆盖了从企业内容管理基础设施架构到特定业务应用的多个层面。

数据挖掘研究院

 

数据挖掘研究院

核心技术构成了TRS内容管理平台的动力引擎,它包括异构资源整合和知识检索技术、内容挖掘和知识管理技术,以及内容工作流技术等。其中尤以异构资源整合和知识检索技术最有特色,它针对企业内外资源的异构状况,可实现内容的统一组织、检索和访问控制,支持企业内外信息集成和应用。 数据挖掘实验室

  数据挖掘实验室

另外,TRS内容管理平台还支持内容价值链的管理,贯穿内容采集、内容创建、内容分析、内容发布、内容评价等内容生命周期的所有阶段。该产品可以在政府、机构、媒体、企业信息化中得到广泛应用。 数据挖掘研究院

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?