zoukankan      html  css  js  c++  java
  • python day 16 jieba库

    Jieba库
    一.概述
    1.由于中文汉字之间是连续书写的,不像英文单词之间是空格隔开的,获得汉语的词组
    2.就需要特殊的手段,即:分词
    3.Jieba是优秀的中文分词 第三方库
    4.Jieba 提供三种分词模式,最简单只需要掌握一个函数
    二.Jieba库分词的原理
    1.利用中文词库,确定汉字之间的关联概率,汉字之间关联概率的组成词组,形成分词结果。
    2.处理jieba库自带的词库,用户也可自定义词组,从而是词库更适合某些特殊领域
    三.三种模式
    1.精确模式:把文本精确的切分,不存在冗余单词
    2.全模式:列出所有可能的单词,存在冗余
    3.搜索引擎模式:
    四.常用函数
    1.Jieba.lcut(str) = cut string into list
    Jieba.lcut(‘中国是一个伟大的国家’)
    ['中国', '是', '一个', '伟大', '的', '国家']
    2.Jieba.lcut(‘中国是一个伟大的国家’ , cut_all=True)
    ['中国', '国是', '一个', '伟大', '的', '国家']
    3.Jieba.lcut_for_search(‘中国是一个伟大的国家’)
    ['中国', '是', '一个', '伟大', '的', '国家']
    和精确分词没有区别,因为没有长的词
    比较: a = ‘中华人民共和国是一个伟大的国家’
    Jieba.lcut(a)
    ['中华人民共和国', '是', '一个', '伟大', '的', '国家']
    Jieba.lcut_for_search(a)
    ['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '一个', '伟大', '的', '国家']
    4.Jieba.add_word(string) 向分词词典增加新词string
    Jieba.add_word(‘蟒蛇语言’)

  • 相关阅读:
    k8s二进制安装
    jenkins
    Deploy Apollo on Kubernetes
    Apollo配置中心搭建常见报错
    Apollo配置中心搭建过程
    使用CephRBD为Kubernetes提供StorageClass
    Ceph基础命令总结
    Ceph分布式存储系统搭建
    zabbix入门之配置邮件告警
    zabbix入门之定义触发器
  • 原文地址:https://www.cnblogs.com/cfqlovem-521/p/12109937.html
Copyright © 2011-2022 走看看