zoukankan      html  css  js  c++  java
  • lucene

    lucene 网址:http://lucene.apache.org/

    1.Lucene 工作原理(使用了倒排索引):http://www.cnblogs.com/dewin/archive/2009/11/24/1609905.html

    2.初识lucene(使用方法):http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/;

                                         http://my.oschina.net/u/238958/blog/214284

    3.lucene评分算法:http://www.hankcs.com/program/java/lucene-scoring-algorithm-explained.html

    4.全文检索lucene中文分词的一些总结(MMAnalyzer中文分词器):http://blog.csdn.net/buptdavid/article/details/5842517

    Lucene的中文分词器IKAnalyzer(使用最新版本不会和Lucene4产生冲突:IKAnalyzer2012FF_u1.jar):http://blog.sina.com.cn/s/blog_67196ddc0101a3so.html

    4.1  IKAnalyzer的安装部署:十分简单,将IKAnalyzer2012.jar部署亍项目的lib目彔中;

    IKAnalyzer.cfg.xml和stopword.dic文件放置在代码根目彔(对亍web项目,通常是WEB-INF/classes目彔,同hibernate、log4j等配置文件相同)下即可。

    当前几个主要的Lucene中文分词器的比较:http://www.chepoo.com/major-chinese-segmentation-lucene-comparative.html

    5。lucene的API参考文档:http://www.dotlucene.net/documentation/api/

    6.如何查看lucene建立的index:使用luke,下载一个luke-version.jar。打开方式:在cmd下使用命令,java -jar lukeall-version.jar

    7.遇到的问题:

    lucene建立的中文索引出现问题:

    用于建立索引的txt文件编码方式不是utf-8。(解决方案:使用notepad++修改编码方式)

    8.lucene打分公式的数学推导

    http://www.cnblogs.com/forfuture1978/archive/2010/03/07/1680007.html

  • 相关阅读:
    MYSQL学习笔记——数据类型
    MYSQL学习笔记——常用语句
    MYSQL学习笔记——基本语法
    Java虚拟机——类加载机制
    Java虚拟机——Class类文件结构
    Tmux
    nginx 更新提示端口占用的解决办法
    fcitx 无法启动
    E:无法修正错误,因为您要求某些软件包保持现状,就是它们破坏了软件包间的依赖关系
    清除浮动
  • 原文地址:https://www.cnblogs.com/zhaochunhua/p/4581134.html
Copyright © 2011-2022 走看看