zoukankan      html  css  js  c++  java
  • jieba模块基本介绍

    一.jieba模块基本介绍

    1.1 jieba模块的作用

    jieba是优秀的第三方中文词库

    中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程

    1.2 jieba模块的安装
    pip install jieba  #cmd命令行

    二.jieba库的使用说明

    2.1 jieba分词的三种模式

    精确模式:将句子最精确的分开,适合文本分析(无冗余)

    全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义(有冗余)

    搜索引擎模式:在精确的基础上,对长词再次切分,提高召回率(有冗余)

    三.jieba分词的使用方法

    3.1 三种模式的使用方法
    #调用jieba词库 import jieba
    #精确模式
    jieba.cut(文件/文本等内容) #获取可迭代对象
    jieba.lcut()
    #全模式
    jieba.cut(cut_all=True) #获取可迭代对象
    jieba.lcut(cut_all=True)
    #搜索引擎模式
    jieba.cut_for_search() # 获取可迭代对象
    jieba.lcut_for_search()
    3.2 jieba.cut与jieba.lcut的区别

    jieba.cut生成的是一个生成器,generator,也就是可以通过for循环来取里面的每一个词。

    import jieba
    txt = '狗比胡晨阳'
    print(jieba.cut(txt))
    #打印的内容
    <generator object Tokenizer.cut at 0x000002004F5B8348>

    jieba.lcut 直接生成的就是一个list

    import jieba
    txt = '狗比胡晨阳'
    print(jieba.lcut(txt))
    #打印的内容
    runfile('E:/python项目/test.py', wdir='E:/python项目')
    Building prefix dict from the default dictionary ...
    Loading model from cache C:UsersADMINI~1AppDataLocalTempjieba.cache
    Loading model cost 1.374 seconds.
    Prefix dict has been built succesfully.
    ['狗', '比', '胡晨阳']

     

     

     

  • 相关阅读:
    HDOJ 1677 Nested Dolls(LIS+Dilworth)
    POJ 1548 Robots (Dilworth)
    POJ 1065 Wooden Sticks
    第三百四十天 how can I 坚持
    第三百三十九天 how can I 坚持
    第三百三十八天 how can I 坚持
    第三百三十七天 how can I 坚持
    第三百三十六天 how can I 坚持
    第三百三十五天 how can I 坚持
    第三百三十四天 how can I 坚持
  • 原文地址:https://www.cnblogs.com/a736659557/p/11778320.html
Copyright © 2011-2022 走看看