zoukankan      html  css  js  c++  java
  • Coreseek-带中文分词的Sphinx

    Sphinx并不支持中文分词, 也就不支持中文搜索, Coreseek = Sphinx + MMSEG(中文分词算法)

    1.下载

      1).到官网下载

      2).解压后有三个文件夹

        csft-3.2.14: Sphinx

        mmseg-3.2.14: 中文分词组件

        testpack: 接口开发包

    2.安装

      1).先安装mmseg, 因为Coreseek会用到

    cd mmseg-3.2.14
    ./configure --prefix=/usr/local/mmseg

      此时如果Makefile文件创建成功, 但是出现了一个config.status: error: cannot find input file: src/Makefile.in错误信息, 使用以下命令重新编译

    aclocal
    libtoolize --force
    automake --add-missing
    autoconf
    autoheader
    make clean
    ./configure --prefix=/usr/local/mmseg

      执行安装

    make && make install

      2).安装csft(即Coreseek)

    ./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg=/usr/local/mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib
    make && make install

    3.中文分词算法分类

      1).基于字符串匹配的分词方法

        基于字典, 进行挨个的词条匹配

        三个要素: 分词词典, 文本扫描顺序, 匹配原则

        扫描顺序: 正向, 逆向, 双向

        匹配原则: 最大, 最小, 逐词,最佳

      2).基于理解的分词方法, 正在测试阶段

      3).基于统计的分词方法, 可以根据相邻的字出现的次数和频率等自动识别生词, 自动消除歧义

     4.配置Coreseek

    cp /usr/local/coreseek/etc/sphinx.conf.dist /usr/local/coreseek/etc/csft.conf #与Sphinx不同的是配置文件名不同
    #接下来按照Sphinx配置即可, 注意索引中的此两处配置
    #charset_type        = zh_cn.utf-8
    #charset_dictpath    = /usr/local/mmseg/etc/

    5.生成索引

    cd /usr/local/coreseek/bin
    ./indexer --all

    6.查找内容

    cd /usr/local/coreseek/bin
    ./search 随永杰
  • 相关阅读:
    未来所有的公司,都将成为互联网公司
    万达数字化管理体系
    架构图都画啥
    历经60年,数据库的王者终于出现了
    从智慧社区产品入手,阐述ToG产品的一些设计要点
    黑科技感爆棚的可视化大屏
    数据库编程——Oracle环境配置
    IO系列测试源码
    IO异步,读写压缩文件,监控文件系统
    StreamReader & StreamWriter
  • 原文地址:https://www.cnblogs.com/JohnABC/p/4733682.html
Copyright © 2011-2022 走看看