dotLucene搜索加入中文分词
应用WhitespaceAnalyzer
1 、
建索引时,将文档先通过分词程序分词,如“张冲这个混蛋”
分词后为 张冲 这 个 混蛋
然后停止词过滤,索引用WhitespaceAnalyzer即可!
2、搜索时,和上面一样执行分词、停止词过滤, 搜索的时候同样用WhitespaceAnalyzer即可
也可以考虑“张冲 混蛋” 2个词语进行坡度设置来完成查询,张、冲setSlop(0),混、蛋setSlop(0)
对这2(或多个)词组的PhraseQuery做BooleanQuery来查询(感觉这个麻烦)
可以考虑写个ChineseAnalyzer