zoukankan      html  css  js  c++  java
  • HanLP笔记

    1. 标准分词

    2. NLP分词

    3. 索引分词

    4. 繁体分词

    5. 极速词典分词

    6. N-最短路径分词

    7. CRF分词

    详细文档:http://hanlp.linrunsoft.com/doc/_build/html/segment.html

    自定义词典

    第一步:  datadictionarycustom目录下新增   我的词典.txt       

      注意:

      (1)文件编码必须utf-8的;

      (2)词典格式,每一行代表一个单词,格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ... 如果不填词性则表示采用词典的默认词性。

      (3)建议将相同词性的词语放到同一个词典文件里,便于维护和分享

    第二步:删除目录中的CustomDictionary.txt.bin缓存文件

    第三部:配置文件hanlp.properties修改,CustomDictionaryPath后增加 我的词典.txt

    运行代码,会提醒找不到CustomDictionary.txt.bin文件,不用管,他会自动再生成一个。过一段时间过后就能出结果。

  • 相关阅读:
    简单二分求解(木板补漏问题)
    switch语句和for循环
    JAVA运算符和优先级
    JAVA数据类型
    JAVA基础
    JAVA开发环境
    linux配置IP地址
    LVM逻辑分区
    用户和用户组
    第一天
  • 原文地址:https://www.cnblogs.com/sss-justdDoIt/p/9211243.html
Copyright © 2011-2022 走看看