zoukankan      html  css  js  c++  java
  • 041 模块5-jieba库的使用

    一、jieba库基本介绍

    1.1 jieba库概述

    jieba是优秀的中文分词第三方库

    • 中文文本需要通过分词获得单个的词语
    • jieba是优秀的中文分词第三方库,需要额外安装
    • jieba库提供三种分词模式,最简单只需掌握一个函数

    1.2 jieba库的安装

    pip install jieba(cmd命令行)

    041-模块5-jieba库的使用-01.jpg?x-oss-process=style/watermark

    1.3 jieba分词的原理

    Jieba分词依靠中文词库

    • 利用一个中文词库,确定汉字之间的关联概率
    • 汉字间概率大的组成词组,形成分词结果
    • 除了分词,用户还可以添加自定义的词组

    二、jieba库使用说明

    2.1 jieba分词的三种模式

    精确模式、全模式、搜索引擎模式

    • 精确模式:把文本精确的切分开,不存在冗余单词
    • 全模式:把文本中所有可能的词语都扫描出来,有冗余
    • 搜索引擎模式:在精确模式基础上,对长词再次切分

    2.2 jieba库常用函数

    函数 描述
    jieba.lcut(s) 精确模式,返回一个列表类型的分词结果
    jieba.lcut(s, cut_all=True) 全模式,返回一个列表类型的分词结果,存在冗余
    jieba.lcut_for_search(s) 搜索引擎模式,返回一个列表类型的分词结果,存在冗余
    jieba.add_word(w) 向分词词典增加新词w
    import jieba
    
    jieba.lcut("中国是一个伟大的国家")
    
    Building prefix dict from the default dictionary ...
    Loading model from cache /var/folders/mh/krrg51957cqgl0rhgnwyylvc0000gn/T/jieba.cache
    Loading model cost 0.979 seconds.
    Prefix dict has been built succesfully.
    
    
    
    
    
    ['中国', '是', '一个', '伟大', '的', '国家']
    
    jieba.lcut("中国是一个伟大的国家",cut_all=True)
    
    ['中国', '国是', '一个', '伟大', '的', '国家']
    
    jieba.lcut("中华人民共和国是伟大的")
    
    ['中华人民共和国', '是', '伟大', '的']
    
    jieba.lcut("中华人民共和国是伟大的",cut_all=True)
    
    ['中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '国是', '伟大', '的']
    
    jieba.lcut_for_search("中华人民共和国是伟大的")
    
    ['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']
    
    jieba.add_word("蟒蛇语言")
    

    2.3 分词要点

    jieba.lcut(s)

  • 相关阅读:
    清除图片周围的空白区域
    试题识别与生成
    需要继续研究
    工作中的必要举措
    教学云平台要求的硬件配置
    处理程序安装部署标准流程
    Node.js 回调函数
    git 学习
    在 Selenium 中让 PhantomJS 执行它的 API
    RF常用库简介(robotframework)
  • 原文地址:https://www.cnblogs.com/nickchen121/p/11200531.html
Copyright © 2011-2022 走看看