搜索引擎是伴随着互联网的发展而不断发展的,由于互联网已经成为人们学习工作和生活中不可缺少的平台,几乎每一个上网的人都会使用搜索引擎,围绕搜索已经形成一个重要的产业链,有些媒体甚至造出了“搜索经济”这个词。
既然搜索这样魅力无穷,人们除了关心目前的搜索的现状外,更加关心下一代搜索引擎是什么样的,也就是想知道搜索引擎的发展趋势。要回答这个问题,我们从搜索引擎所紧密关联的两个对象入手来分析。搜索引擎实际上就是在用户(搜索引擎的使用者)和互联网资源(搜索引擎的搜索对象)这两者之间建立起一个联系,将用户真正想要的内容呈现给用户,同时用户不想要的内容不呈现给用户。我们称这一要求为“所得即所需”(What You Get is What You Want)。因此,本文从搜索引擎的用户体验和互联网资源的组织和获取这两个角度来分析一下搜索引擎技术的未来发展之路,并简要回答一些疑问。
第一、从互联网资源组织的角度来看搜索引擎技术的发展趋势。
互联网资源主要是以非规范文本或者多媒体形式存在的,如何让这些资源达到某种程度的结构化是提供快速准确搜索的客观的要求。也就是说如何表示互联网资源是搜索引擎首先要回答的问题。在数据库领域我们喜欢用数据模型的不同来作为区分技术进步的主要依据。同样,我们也可以从数据模型的角度来看一看搜索引擎技术的发展轨迹。
第一代搜索引擎的特征是目录搜索,代表产品当然就是YAHOO了。这个时期的技术思路,不可避免地受传统的图书情报管理方法的影响。我们知道,传统的图书馆面对大量的文献资源,采用的办法是首先建立一套图书文献分类标准,然后将文献按照分类标准手工或者计算机辅助地进行分类,这样用户就可以按照这个分类进行文献的检索了。第一代的搜索引擎也是采用类似的方法来建立网络文献的数据模型的,不过需要指出的是,YAHOO所采用的分类体系,比起传统文献分类体系来说,要简单的多和不规范的多。从这种意义上讲,YAHOO的技术创新不大。第一代搜索引擎的弊端和传统图书馆文献管理方法的弊端也是一样的。首先,这个分类体系是由文献的管理者人为的给出来的,用户并不一定清楚,或者说普通用户并不一定理解,这样就有可能找不到想要的信息。其次,手工分类的成本太大、效率太低,不能适应快速增长的网上信息资源管理的需要。
第二代搜索引擎在看到了第一代搜索引擎的弊端后,创新性地提出了页面重要性分析技术pageranking技术和超链分析技术等,将最重要的页面优先呈现给用户。代表产品就是GOOGLE。与YAHOO不同的是,GOOGLE并不对文献进行分类,而是从文献中识别出“关键字”来,然后建立倒排索引。也就是说文献是用一组关键字列表来表示的,这就是网络资源的数据模型。这一模型的好处就是计算机可以自动地完成,无需人工干预,这使得大规模的搜索成为可能。根据用户提交的查询关键字,然后对出现这些关键字的页面按照确定的方法对其进行排序,并按照得分的高低顺序呈现给用户。这种方法的最大好处是用户不需要额外的负担,只需要敲入适当的关键字就可以了。用户获得了前所未有的信息体验。GOOGLE也因此获得了蓬勃的发展。

