• 基本概念

lucene是一个java开发的全文索引,它的基本功能是建立索引和查询。lucene也可以理解为一个数据库,在lucene中每条记录就是一个document,然后document中有对应的字段记录文档的基本信息。 document并不是真正意义上的文档,它可以是任何数据类型,只要可以映射到lucene的document对象中,如数据库的记录,xml数据集等等。

    lucene是用的倒排索引的方式去建立索引的,如果不清楚倒排索引,可以在网上找相关资料看看
  • lucene的使用:

将lucene-core-m.n.p.jar (m.n.p是版本号)引入到你的Java工程中,然后import相关的类就可以开始使用lucene的以下功能了

  1. 建立索引: 使用IndexWriter
  2. 搜索: 使用IndexReader和Searcher
  3. 删除索引: 使用IndexReader(这里可能比较奇怪)
  4. 更新索引:这里要注意,lucene并没有提供update索引的功能,如果需要更新操作,请先删除原来的索引,并重新索引要更新的条目

具体的使用方式请参考lucene的相关文档,特别推荐«Lucene in Action»这本书,写得很详细,遇到问题在网上搜索一下基本可以解决问题了

  • lucene的分词:

lucene自带了分词的类,默认用空格去分词。但是对于中日韩三国的语言,空格去区分每个词显然不合适。lucene提供了很容易扩展的分词接口,用户可以根据自己的需要选择合适的分词器。 有个免费的庖丁分词库还不错,可以到这里下载:http://code.google.com/p/paoding/downloads/list

     值得注意的是:分词和索引的时候要使用相同的分词器
lucene/对lucene的基本理解.txt · 最后更改: 2009/03/06 02:19 由 zhangyan
到顶部
chimeric.de = chi`s home Creative Commons License Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0 红麦软件 红麦软件