RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

给nutch 0.8添加中文分词(二分法)

来源: 作者:互联网作品 时间:2007-04-12 点击:
本文旨在给nutch添加二分法中文分词,可以预计的结果是汉字的索引不再是一个个字分开来的,从而会大大的增加搜索的准确率

  修改的文件:NutchAnalysis.jj (在nutch的analysis包里面)

数据挖掘研究院

  NutchAnalysis.jj

  在TOKEN里面增加(前后有参照) 数据挖掘研究院

  | <SIGRAM: <CJK> >

数据挖掘研究院

  | <CHINAWORD: (<CHINESE><CHINESE>)>

数据挖掘研究院

  { 数据挖掘研究院

  //String newimage=new String(); 数据挖掘研究院

  //for (int i = 0; i < image.length()-1; i++){ 数据挖掘研究院

  //  newimage += "" + image.charAt(i) + image.charAt(i + 1) + " ";

  //}

  //matchedToken.image += " "; 数据挖掘研究院

  input_stream.backup(1);

数据挖掘研究院

  } 数据挖掘研究院

  // irregular words

  | <#IRREGULAR_WORD: (<C_PLUS_PLUS>|<C_SHARP>)> 数据挖掘研究院

  | <#C_PLUS_PLUS: ("C"|"c") "++" >

  | <#C_SHARP: ("C"|"c") "#" > 数据挖掘实验室

  修改 数据挖掘实验室

  |  <#CJK:                                        // non-alphabets,but not chinese 数据挖掘研究院

  [ 数据挖掘研究院

  "\u3040"-"\u318f", 数据挖掘实验室

  "\u3300"-"\u337f",

  "\u3400"-"\u3d2d", 数据挖掘研究院

  "\uf900"-"\ufaff"

数据挖掘研究院

  ]

数据挖掘研究院

  > 数据挖掘研究院

  |  <#CHINESE:                                        // non-alphabets 数据挖掘研究院

  [

  "\u4e00"-"\u9fff"

数据挖掘研究院

  ] 数据挖掘研究院

  > 数据挖掘研究院

  | < #DIGIT:                                       // unicode digits 数据挖掘研究院

  [ 数据挖掘研究院

  "\u0030"-"\u0039",

数据挖掘研究院

  ...

数据挖掘研究院

  修改 数据挖掘研究院

  String term() : 数据挖掘研究院

  {

数据挖掘研究院

  Token token;

  }

数据挖掘研究院

  { 数据挖掘实验室

  ( token=<WORD> | token=<ACRONYM> | token=<SIGRAM> | token=<CHINAWORD>)

数据挖掘实验室

  { return token.image; } 数据挖掘研究院

  }

数据挖掘研究院

  然后javacc NutchAnalysis.jj 数据挖掘研究院

  在nutch根目录下面运行ant进行编译,然后就可以测试抓去了,我们用luke来分析index所以,可以看到都是按照二分法进行索引的 数据挖掘研究院

  但是现在localhost还不能搜索出来结果,是因为默认的搜索还是采用的单字分开的,下回将解释如何来修改以支持二分法分词

数据挖掘研究院

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?