zoukankan      html  css  js  c++  java
  • 分词数据字典下载

    2021年9月8日16:33:14

    使用ElasticSearch ik做分词查询的时候,发现对医药相关的分词并不理想,找了一下相关的字典

    搜狗输入法的词典

    https://pinyin.sogou.com/dict/

    比如

    https://pinyin.sogou.com/dict/search/search_list/%D2%BD%C1%C6/normal

    scel这种二进制格式,如果你需要使用可能需要转换一下格式,要是官方提供json格式或者dic的就更好了

    还有一些nlp的训练数据比如:

    https://github.com/i3ef0xh4ck/the-most-complete-dictionary-ever

    https://github.com/fighting41love/funNLP

    注意最好,转移到gitee,文件库比较大

    gitee镜像

    https://gitee.com/open-php/funNLP

    https://gitee.com/open-php/the-most-complete-dictionary-ever

    会不定期同步,如果发现还有其他新资源,我也会更新博文的

    QQ群 247823727 博客文件如果不能下载请进群下载
    如果公司项目有技术瓶颈问题,如有需要,请联系我,提供技术服务 QQ: 903464207
  • 相关阅读:
    mysql 基础sql语句
    mysql存储引擎概述
    docker命令总结
    python链接postgresql
    Log4.net示例
    postgresql 使用游标笔记
    npm常用命令
    Nginx命令
    Ubuntu命令总结
    NHibernate总结
  • 原文地址:https://www.cnblogs.com/zx-admin/p/15243423.html
Copyright © 2011-2022 走看看