zoukankan      html  css  js  c++  java
  • 使用jieba分词时,自定义词典(jieba.load_userdict('userdict.txt'))不生效的一种可能原因

    今天使用jieba分词时,发现 jieba.load_userdict('userdict.txt') 并没有将自定义的词给保留下载,比如原文本中包含了 “不开心”,我想把“不开心”保留下来【ps:在常用的那几种模式中,都会分成 不  /  开心,所以想到将“不开心”,自定义到词典中来达到目的】

    然而我发现,当我使用了 jieba.load_userdict('userdict.txt') 时,并没有成功地把“不开心”保留,更甚者,连 “不 /  开心” 都不见了。。。。

    后面发现,我在分词时因为需要保留词性,所以使用的是使用的是 jieba.posseg.lcut(sentence),但是,我添加自定义词典时只是单纯地在文件中写入了 “不开心”,省略了词频和词性,后来顺便补上词频和词性后,问题就得到解决了。

    关于词频和词性如何填写,这里有篇文章提到jieba 默认有349046个词,然后每行的含义是 词 词频 词性,如果你新加的词汇不知道该怎么设置的话,可以写成 词 3 n

    (至于根本原因是啥,我也没有深究进去)

  • 相关阅读:
    关于上传组件
    二分查找的时间复杂度
    commander.js
    执行上下文
    谷歌插件开发
    网站性能
    日记
    <<人间失格>>阅读
    Node.js 应该用在什么地方
    浅谈前后端分离与实践 之 nodejs 中间层服务
  • 原文地址:https://www.cnblogs.com/Guhongying/p/12403019.html
Copyright © 2011-2022 走看看