zoukankan      html  css  js  c++  java
  • Coreseek-带中文分词的Sphinx

    Sphinx并不支持中文分词, 也就不支持中文搜索, Coreseek = Sphinx + MMSEG(中文分词算法)

    1.下载

      1).到官网下载

      2).解压后有三个文件夹

        csft-3.2.14: Sphinx

        mmseg-3.2.14: 中文分词组件

        testpack: 接口开发包

    2.安装

      1).先安装mmseg, 因为Coreseek会用到

    cd mmseg-3.2.14
    ./configure --prefix=/usr/local/mmseg

      此时如果Makefile文件创建成功, 但是出现了一个config.status: error: cannot find input file: src/Makefile.in错误信息, 使用以下命令重新编译

    aclocal
    libtoolize --force
    automake --add-missing
    autoconf
    autoheader
    make clean
    ./configure --prefix=/usr/local/mmseg

      执行安装

    make && make install

      2).安装csft(即Coreseek)

    ./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg=/usr/local/mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib
    make && make install

    3.中文分词算法分类

      1).基于字符串匹配的分词方法

        基于字典, 进行挨个的词条匹配

        三个要素: 分词词典, 文本扫描顺序, 匹配原则

        扫描顺序: 正向, 逆向, 双向

        匹配原则: 最大, 最小, 逐词,最佳

      2).基于理解的分词方法, 正在测试阶段

      3).基于统计的分词方法, 可以根据相邻的字出现的次数和频率等自动识别生词, 自动消除歧义

     4.配置Coreseek

    cp /usr/local/coreseek/etc/sphinx.conf.dist /usr/local/coreseek/etc/csft.conf #与Sphinx不同的是配置文件名不同
    #接下来按照Sphinx配置即可, 注意索引中的此两处配置
    #charset_type        = zh_cn.utf-8
    #charset_dictpath    = /usr/local/mmseg/etc/

    5.生成索引

    cd /usr/local/coreseek/bin
    ./indexer --all

    6.查找内容

    cd /usr/local/coreseek/bin
    ./search 随永杰
  • 相关阅读:
    错误记录笔记(持续更新)
    聊聊iOS Keychain
    IDEA下将dubbo简单项目跑Demo(2019.12版)
    dubbo控制台启动步骤
    day1
    信息安全
    huZABtwIrp
    【踩坑】环境问题
    【踩坑】IDEA 设置 JVM 参数
    WebServer Project-02-XML解析
  • 原文地址:https://www.cnblogs.com/JohnABC/p/4733682.html
Copyright © 2011-2022 走看看