我的毕业设计是基于全文检索引擎工具包Luncene的analysis包而实现的,期间查看了该包的源码并作了一些分析,现在贴出来以供参考。 注:这里分析的只是analysis包的一些基本类,而不是全部。 1、Token类: packageorg.apache.lucene.analysis; publicfinalclassToken{ St
Lucene1.9改进特性列表 1.9RC1 注:lucene2.0发布版本并不是100%的和1.4.3版兼容。也就是说在你用2.0版本的Lucene开发包替换原来的1.4.3版本时,应该让你的应用程序首先和1.9的兼容。 使用前提: 1.编译和使用Lucene需要Java1.4或以上版本。 Lucene1.9在运行时的变化:
互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这
larbin是一种爬虫工具,我也是前段时间网上看到Larbin一种高效的搜索引擎爬虫工具一文时才知道有这么个东西,初步认定,我比较喜欢这个工具(比起nutch的crawl来说),因为它是C++写的,类似C嘛,我熟,可以自己改改,顺便学习一下C++(几年来的经验告诉我说:改别人的东西
某些网站允许软件开发社团通过发布开发者指南、白皮书、FAQs和源代码以实现信息的共享。随着信息量的增长,和几个开发者贡献出自己的知识库,于是网站提供搜索引擎来搜索站点上现有的所有信息。虽然这些搜索引擎对文本文件的搜索可以做的很好,但对开发者搜索源代码做了
首先,基于一个简单的新闻系统,要想做全文检索.新闻系统的管理等在这里不在具体提出,下面列出新闻对象的类: 注:程序用会到一些工具类,不在此列出,用户可以自己实现. packagecom.jscud.website.newsinfo.bean; importjava.sql.timestamp; importcom.jscud.util.datetime;
在使用lucene对相关内容进行索引时,会遇到各种格式的内容,例如html,pdf,word等等,那么我们如何从这么文档中得到我们需要的内容哪?例如html的内容,一般我们不需要对html标签建立索引,因为那不是我们需要搜索的内容.这个时候,我们就需要从html内容中解析出我们所需要的内
无论是建立索引还是分析内容,都是为了用户的搜索服务. 在lucene中,如果需要使用搜索,需要使用searcher类,这是一个抽象类,它有2个子类:indexsearcher和multisearcher. indexsearcher是对一个索引进行搜索,如果你需要对多个索引进行搜索,可以使用multisearcher.下面的内容
Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上,例如将Crawler和Searcher分别放在两个主机上,这样可以提升性能。 爬虫,Crawler: Crawler的重点在两个方面,Crawler的工作流程和涉及的数据文件的格式和含义。数据文件主要包括
1.介绍 NDFS:在一系列机器上存储庞大的面向流的文件,包含多机的存储冗余和负载均衡。 文件以块为单位存储在NDFS的离散机器上,提供一个传统的input/output流接口用于文件读写。 块的查找以及数据在网络上传输等细节由NDFS自动完成,对用户是透明的。而且NDFS能很好地
本文旨在给nutch添加二分法中文分词,可以预计的结果是汉字的索引不再是一个个字分开来的,从而会大大的增加搜索的准确率 修改的文件:NutchAnalysis.jj(在nutch的analysis包里面) NutchAnalysis.jj 在TOKEN里面增加(前后有参照) |SIGRAM:CJK |CHINAWORD:(CHINESECHIN
大部分的搜索引擎营销商只会从他们自己的角度出发来看待搜索引擎。一些有远见的营销商还会从终端用户的角度来思考问题,因为终端用户对他们来说十分重要。而那些最明智的营销商则会尝试着从搜索引擎工程师的角度来考虑问题。 通过和那些致力于提高搜索引擎排名的人进行
nutch版本是0.7.2 现在实现基本中文分词功能的代码和软件模块很多,性能也还可以,但是怎样将其应用到NUTCH中的方法介绍相对较少,下面我就实现NUTCH中文分词的NUTCH代码修改方法与步骤,抛砖引玉的介绍一下。 代码修改的切入点是通过对NUTCH处理中文的切分器Tokenizer
共33页/490条记录 首页
1
[2]
[3]
[4]
[5]
[6]
[7]
下一页
末页
|