python day 16 jieba库

zoukankan html css js c++ java

python day 16 jieba库

Jieba库
一．概述
1．由于中文汉字之间是连续书写的，不像英文单词之间是空格隔开的，获得汉语的词组
2．就需要特殊的手段，即：分词
3．Jieba是优秀的中文分词第三方库
4．Jieba 提供三种分词模式，最简单只需要掌握一个函数
二．Jieba库分词的原理
1．利用中文词库，确定汉字之间的关联概率，汉字之间关联概率的组成词组，形成分词结果。
2．处理jieba库自带的词库，用户也可自定义词组，从而是词库更适合某些特殊领域
三．三种模式
1．精确模式：把文本精确的切分，不存在冗余单词
2．全模式：列出所有可能的单词，存在冗余
3．搜索引擎模式：
四．常用函数
1．Jieba.lcut(str) = cut string into list
Jieba.lcut(‘中国是一个伟大的国家’)
['中国', '是', '一个', '伟大', '的', '国家']
2．Jieba.lcut(‘中国是一个伟大的国家’ , cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']
3．Jieba.lcut_for_search(‘中国是一个伟大的国家’)
['中国', '是', '一个', '伟大', '的', '国家']
和精确分词没有区别，因为没有长的词
比较： a = ‘中华人民共和国是一个伟大的国家’
Jieba.lcut(a)
['中华人民共和国', '是', '一个', '伟大', '的', '国家']
Jieba.lcut_for_search(a)
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '一个', '伟大', '的', '国家']
4．Jieba.add_word(string) 向分词词典增加新词string
Jieba.add_word(‘蟒蛇语言’)

查看全文

相关阅读:
catchadminvue 安装遇到的问题
 HttpRunner 3.x （三）环境与简介测试
 HttpRunner 3.x （五）：variables变量的声明和引用测试
 HttpRunner 3.x （四）：post请求类型application/xwwwfromurlencoded 测试
 httprunenr 3.x（一）环境安装与准备测试
 httprunner 3.x（二）测试用例结构测试
 单例模式，工厂模式
 【更新公告】Airtest更新至1.2.4
【更新公告】pocoui更新至1.0.85版本
 使用Airtest对iOS进行自动化的常见问题答疑

原文地址：https://www.cnblogs.com/cfqlovem-521/p/12109937.html