lucene是一个java开发的全文索引,它的基本功能是建立索引和查询。lucene也可以理解为一个数据库,在lucene中每条记录就是一个document,然后document中有对应的字段记录文档的基本信息。 document并不是真正意义上的文档,它可以是任何数据类型,只要可以映射到lucene的document对象中,如数据库的记录,xml数据集等等。
lucene是用的倒排索引的方式去建立索引的,如果不清楚倒排索引,可以在网上找相关资料看看
将lucene-core-m.n.p.jar (m.n.p是版本号)引入到你的Java工程中,然后import相关的类就可以开始使用lucene的以下功能了
具体的使用方式请参考lucene的相关文档,特别推荐«Lucene in Action»这本书,写得很详细,遇到问题在网上搜索一下基本可以解决问题了
lucene自带了分词的类,默认用空格去分词。但是对于中日韩三国的语言,空格去区分每个词显然不合适。lucene提供了很容易扩展的分词接口,用户可以根据自己的需要选择合适的分词器。 有个免费的庖丁分词库还不错,可以到这里下载:http://code.google.com/p/paoding/downloads/list
值得注意的是:分词和索引的时候要使用相同的分词器到顶部