zoukankan      html  css  js  c++  java
  • 如何在mmseg3添加词库

     

    一、了解几个文件

    ll /usr/local/mmseg/etc/
    mmseg.ini 
    uni.lib   编译后的词库,给sphinx 用的
    unigram.txt   原词库给人看的, 在这里面人工添加自己的词库

    二、添加词条,格式如下

    vim /usr/local/mmseg/etc/unigram.txt

    邯郸王队  1    //[词条] [词频率]
    x:1    //占位项(x:1即可)
    工信处  1
    x:1
    女干事  1
    x:1

    注意:这里一定要是 分隔,把词库文件下载下来,然后查看所有字符就知道了,直接vi的话不能copy,要手工输入Tab键

    三、重新编译

    编译词库:

    /usr/local/mmseg/bin/mmseg -u unigram.txt         生成这个 unigram.txt.uni 文件,把这个文件重命名为uni.lib,给sphinx 用的即可
    mv unigram.txt.uni  uni.lib
    chmod +x /usr/local/mmseg/etc/uni.lib 
    
    // 可以不重启,保险起见还是重启下吧 /usr/local/coreseek/bin/searchd --stop 关掉searchd /usr/local/coreseek/bin/searchd 启动searchd /usr/local/coreseek/bin/indexer --all --rotate 生成索引 检查是否生效 /usr/local/coreseek/bin/search 工信处女干事邯郸王队 words: 1. '工信处': 0 documents, 0 hits 2. '女干事': 0 documents, 0 hits 3. '邯郸王队': 0 documents, 0 hits 说明词库生效了
  • 相关阅读:
    0/1背包问题
    假如爱有天意(中文版)
    tomcat集群
    分布式锁
    centos7安装Harbor(转载)
    isEmpty和isBlank的区别
    单体应用架构和分布式架构的比较
    微服务鉴权
    mysql的时区设置
    RSA非对称加密算法
  • 原文地址:https://www.cnblogs.com/cshaptx4869/p/10402141.html
Copyright © 2011-2022 走看看