随着Internet/Intranet技术与应用的迅猛发展,网络正深刻的改变着我们的生活。而在网上发展最为迅猛的www(World Wide Web)技术,以其直观、方便的使用方式和丰富的表达能力,已逐渐成为Internet上最重要的信息发布和传输方式。然而Web信息的急速膨胀,在给人们提供丰富的资源的同时,又使人们在对它们的有效使用方面面临一个巨大的挑战。Web已成为一个巨大的信息源,且资料量仍在快速增长。如何有效的利用这些信息就变得非常的重要,因此出现了各种基于Web资料源的技术和应用。"Web可视化"就是面对web上的信息爆炸,web拓扑结构变大,并变得越来越复杂,用户难以理解Web图形潜在的结构等情况下产生的热门学科。
1.1 Web可视化现状
Web可视化是基于www的技术。它是将Web的结构利
用图形进行显示,协助用户进行Web导航。Web可视化的有效资源通常是网页上的超链接(cross-references)和网络图形的拓扑结构。现有的Web可视化主要是基于结构的可视化。
Web可视化的用途十分广泛,现在流行的有:将www和Internet的所有站点之间链接的拓扑结构用直观的图形展示出来;分析和跟踪网络资源的访问情况及拥挤情况;争对某一个站点进行站内结构分析,这一研究方向主要应用于进行站点导航的网站,如:http://www.inxight.com网站的导航图。这其中大多是可动态显示的可视化图形。 数据挖掘研究院
国外已经有大量的可视化工具,诸如:H3view、WebOFDAV、Website Extractor 8.35、WebMap、WWW Graphic History Browser、Internet Cartographer、SurfSerf、Nestor Navigator、Natto View、WebTracer、Nicheworks等。
目前,国外的Web可视化研究的图形形式大部分都是树型结构,这种树型结构也具有多种不同形式,二维形式如:一般树、H-tree、Tree-map、Balloon View、Radial View;三维形式如:Cone Tree、Hyperbolic View等。这一部分内容在文献[6]中有详细的描述。
本课题分为两个部分,Web站点结构及网页特征信息的抽取和过滤,和基于一般树和H树的画法。本文将对第一部分--Web站点结构及网页特征信息的抽取和过滤进行阐述。
1.2 Web站点结构及网页特征信息的抽取和过滤的意义以及研究现状
作为提供Web可视化的重要技术部分,Web站点结构及网页特征信息的抽取和过滤与当前热门领域--Web信息采集很类似,它正应用于搜索引擎、站点结构分析、页面有效性分析、Web突进化、内容安全检测、用户兴趣挖掘以及个性化信息获取等多种服务和研究中。随着Internet中信息的迅速膨胀和人们对各种服务质量要求的提高,Web信息抽取的任务也越来越艰巨。可是,许多成功的和主流的抽取系统,由于商业需要而将许多的技术细节匿而不宣,这对于发展非常的不利。尽管如此,国内外仍然对它进行了许多积极的研究。并且,随着应用的不断扩展和各种研究的不断增多,它现在已经成为一个较为对立的热门领域。现有的几种主要采集技术及发展方向有:基于整个Web的信息采集、基于主题的Web信息采集、增量式Web信息采集、基于用户个性化的Web信息采集、基于Agent信息采集、迁移的信息采集、基于元搜索的信息采集等。 数据挖掘研究院
Web站点结构及网页特征信息抽取和过滤的现有研究有:基于多知识的Web网页信息抽取方法、基于多层模式的多级路网页信息抽取方法、网页自动抽取方法等。本文主要完成了Web站点结构及网页特征信息抽取和过滤的基本原理分析、基本结构、算法的具体设计与实现。
Web站点结构及网页特征信息的抽取和过滤
来源:
作者:unkonwn
时间:2004-11-29
点击:
0
上一篇:没有了
下一篇:基于Web日志挖掘技术的智能Web站点研究
下一篇:基于Web日志挖掘技术的智能Web站点研究
最新评论共有 0 位网友发表了评论
查看所有评论
发表评论
热点关注

