网页内容智能提取技术能有效地提取网页中的有效信息,区分网页中的标题、正文等信息项,并对内容具有连续性的多个网页内容进行自动合并、网络论坛信息自动提取等。
·网络舆情分析技术
网络舆情分析技术是本系统的核心应用技术,该技术是一组管理、提炼、应用、共享所有的显性知识和隐性知识及信息资源的方法。
(1)自然语言处理技术
自动分词技术:自动分词技术是中文信息处理与分析的基础。本系统中以词典和规则为基础,综合利用了基于概率分析的语言模型方法,使分词的准确性达到99%,并可根据不同的应用进行适合特定要求的分词。
自动关键词与自动摘要技术:本系统在篇章语义分析的基础上,综合考虑词频、词性、位置信息,实现准确的自动关键词与自动摘要。同时利用指代消解等技术使得摘要更具可读性。
(2) 信息检索技术
全文检索技术:本系统的全文引擎将传统的全文检索技术与最新的WEB搜索技术相结合,大大提高检索引擎的性能指标。同时融合了多种相关技术,提供丰富的检索手段以及同义词等智能检索方式。
基于图片内容检索:传统的图片检索主要是通过图片的描述信息进行检索,本系统的图片检索引擎不仅提供基于图片描述的检索,还提供对图片内容的检索,以及结合描述与内容的综合检索,并提供对图片进行缩微预览功能。 数据挖掘研究院
(3) 数据挖掘技术
自动分类与自动聚类:分类是通过对训练集的学习,得出每一分类的属性特征的模型,然后使用这一模型对未知分类情况的数据进行分类。聚类是将数据集合中的数据划分为具有一定意义的子集,使得不同子集中的数据差别(距离)尽可能大,而同一子集中的数据差别(距离)尽可能小。
相似搜索与消重:相似搜索是在对象集合中,找到与指定的查询对象相似的对象实例或对象子集。
主题检测与追踪:主题追踪是指在各种信息来源中追踪那些讨论目标主题的相关信息片段。主题检测任务是自动检测信息片断集合中的各个未知主题,并能在线检测出新主题。
关联分析与趋势分析:关联分析是从海量数据中挖掘关联规则。同时,利用趋势分析技术,分析网络舆论等随时间的发展趋势情况,以便实现对舆论环境的监测与不良倾向的预警。 数据挖掘研究院
特色与优势
·全面支持XML;
·开放性:系统必须能够兼容不同类型的数据源,其对外信息服务的方式和内容必须便于与其他信息表现前端集成;

