zoukankan      html  css  js  c++  java
  • pyhanlp用户自定义词典添加实例说明

    pyhanlp用户自定义词典添加实例说明

    pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp

    经过测试,HanLP比nltk在中文分词和实体识别方面都更好用.

    如何向pyhanlp添加自定义的词典?以python 2.7.9为例:

    1.安装pyhanlp:pip install pyhanlp

    2.在字典路径下添加自定义的词典:CustomDictionary主词典文本路径是data/dictionary/custom/CustomDictionary.txt,用户可以在此增加自己的词语(不推荐);也可以单独新建一个文本文件,通过配置文件;CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;来追加词典(推荐)。

    具体绝对路径可用hanlp --version获取:

    #hanlp --version

    jar1.6.3:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp-1.6.3.jar

    data 1.6.2: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data

    config:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties

    #cat /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties | grep "CustomDictionaryPath"

    3.建议在该路径下添加自己的词典文件例如 我的词典.txt,并将其加入上面的properties文件里的CustomDictionaryPath下面。

    #cat 我的词典.txt  

    codis集群 nz 1000

    今日头条 nz 1000

    第一列为词条,第二列为词性(默认为n),第三列为词频

    4.然后需要删除缓存文件,这样python才会重新加载新增的文件:

    #rm -f CustomDictionary.txt.bin

    5.测试新增的词典:

    python -c "from pyhanlp import *;print(HanLP.segment('codis集群,今日头条'))"

    五月 16, 2018 4:43:14 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes

    警告:读取

    /usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin时发生异常java.io.FileNotFoundException: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin (没有那个文件或目录)

    报这个错误没有关系,只是个warning,重新加载缓存文件而已。

    备注:

    HanLP词性列表:详细的词性列表可以查询hanlp项目网站上内容,更为全面详细!

    ---------------------

    作者:明月三千里68

  • 相关阅读:
    解决Navicat for MySQL 连接 Mysql 8.0.11 出现1251- Client does not support authentication protocol 错误
    使用jquery validate结合zui作表单验证
    python中利用openpyxl、xlsxwriter库操作Excel
    pandas常用方法之read_excel详解
    利用python中的win32com模块操作Word、Excel文件
    python中如何将csv文件转为xls文件
    python中如何压缩和解压缩文件
    用python实现多个表格合并按字段去重
    ansible基础知识,基本操作
    关于Sublime Text无法打开 Package Control 及其他报错问题的解决
  • 原文地址:https://www.cnblogs.com/adnb34g/p/10130138.html
Copyright © 2011-2022 走看看