zoukankan      html  css  js  c++  java
  • 041 模块5-jieba库的使用

    一、jieba库基本介绍

    1.1 jieba库概述

    jieba是优秀的中文分词第三方库

    • 中文文本需要通过分词获得单个的词语
    • jieba是优秀的中文分词第三方库,需要额外安装
    • jieba库提供三种分词模式,最简单只需掌握一个函数

    1.2 jieba库的安装

    pip install jieba(cmd命令行)

    041-模块5-jieba库的使用-01.jpg?x-oss-process=style/watermark

    1.3 jieba分词的原理

    Jieba分词依靠中文词库

    • 利用一个中文词库,确定汉字之间的关联概率
    • 汉字间概率大的组成词组,形成分词结果
    • 除了分词,用户还可以添加自定义的词组

    二、jieba库使用说明

    2.1 jieba分词的三种模式

    精确模式、全模式、搜索引擎模式

    • 精确模式:把文本精确的切分开,不存在冗余单词
    • 全模式:把文本中所有可能的词语都扫描出来,有冗余
    • 搜索引擎模式:在精确模式基础上,对长词再次切分

    2.2 jieba库常用函数

    函数 描述
    jieba.lcut(s) 精确模式,返回一个列表类型的分词结果
    jieba.lcut(s, cut_all=True) 全模式,返回一个列表类型的分词结果,存在冗余
    jieba.lcut_for_search(s) 搜索引擎模式,返回一个列表类型的分词结果,存在冗余
    jieba.add_word(w) 向分词词典增加新词w
    import jieba
    

    jieba.lcut("中国是一个伟大的国家")

    Building prefix dict from the default dictionary ...
    Loading model from cache /var/folders/mh/krrg51957cqgl0rhgnwyylvc0000gn/T/jieba.cache
    Loading model cost 0.979 seconds.
    Prefix dict has been built succesfully.
    
    
    
    
    
    ['中国', '是', '一个', '伟大', '的', '国家']
    
    jieba.lcut("中国是一个伟大的国家",cut_all=True)
    
    ['中国', '国是', '一个', '伟大', '的', '国家']
    
    jieba.lcut("中华人民共和国是伟大的")
    
    ['中华人民共和国', '是', '伟大', '的']
    
    jieba.lcut("中华人民共和国是伟大的",cut_all=True)
    
    ['中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '国是', '伟大', '的']
    
    jieba.lcut_for_search("中华人民共和国是伟大的")
    
    ['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']
    
    jieba.add_word("蟒蛇语言")
    

    2.3 分词要点

    jieba.lcut(s)

  • 相关阅读:
    OLAP ODS项目的总结 平台选型,架构确定
    ORACLE ORA12520
    ORACLE管道函数
    ORACLE RAC JDBC 配置
    ORACLE RAC OCFS连接产生的错误
    ORACLE 启动和关闭详解
    OLAP ODS项目的总结 起步阶段
    ORACLE RAC 配置更改IP
    ORACLE RAC OCR cann't Access
    ORACLE RAC Debug 之路 CRS0184错误与CRS初始化
  • 原文地址:https://www.cnblogs.com/abdm-989/p/14129887.html
Copyright © 2011-2022 走看看