zoukankan      html  css  js  c++  java
  • jieba库初识与运用

    一.jieba库初识

    jieba是Python中的一个重要的第三方中文分词函数库

    #以下是jieba库的简单运用:

    二.jieba库的安装

    1、下载jieba库:https://pypi.org/project/jieba/

    2、将其解压到某一文件夹下:

    3、运行cmd,进入jieba-0.39文件夹:

    4、执行命令:python3 setup.py install 回车

    5、测试jieba是否安装成功(运行出现分词,则安装成功,结果如下:)

    输入import jieba没有问题,安装成功。

    三.jieba库常用的分词函数

    1.jieba.cut(s)     精准模式,返回一个可迭代的数据类型

    2.jieba.cut(s,cut_all=True)     全模式,输出文本s中所有可能的单词

    3.jieba.cut_for_search(s)   搜索引擎模式,适合搜索引擎建立索引的分词结果

    4.jieba.lcut(s)     精准模式,返回一个列表类型,建议使用

    5.jieba.lcut(s,cut_all=True)     全模式,返回一个列表类型,建议使用

    6.jieba.cut_for_search(s)   搜索引擎模式,返回一个列表类型,建议使用

    7.jieba.add_word(w)  向分词词典中增加新词w

    四.文本词频条统计

    《三国演义》人物出场统计

    首先从网上下载《三国演义》文本

     1 #三国演义人物出场次数统计
     2 import jieba
     3 excludes = {"将军","却说","荆州","二人","不可","不能","如此","商议","军士","如何",
     4             "主公","军马","左右",}
     5 txt = open("./三国演义.txt", "r", encoding='utf-8').read()
     6 words  = jieba.lcut(txt)
     7 counts = {}
     8 for word in words:
     9     if len(word) == 1:
    10         continue
    11     elif word == "诸葛亮" or word == "孔明曰":
    12         rword = "孔明"
    13     elif word == "关公" or word == "云长":
    14         rword = "关羽"
    15     elif word == "玄德" or word == "玄德曰":
    16         rword = "刘备"
    17     elif word == "孟德" or word == "丞相":
    18         rword = "曹操"
    19     else:
    20         rword = word
    21     counts[rword] = counts.get(rword,0) + 1
    22 for word in excludes:
    23     del counts[word]
    24 items = list(counts.items())
    25 items.sort(key=lambda x:x[1], reverse=True) 
    26 for i in range(5):
    27     word, count = items[i]
    28     print ("{0:<10}{1:>5}".format(word, count))

    运行结果如下:

    《三国演义》文本下载:

    链接:https://pan.baidu.com/s/1FfDO9H8nczSLBkTHxPIINg
    提取码:nfw6
    复制这段内容后打开百度网盘手机App,操作更方便哦

  • 相关阅读:
    OpenCV/python读取,显示,保存图像
    机器学习的基本分类
    Qt Designer常用部件介绍
    C#数据类型列表
    SQL-Base 函数
    SQl 基本函数
    SQL 插入数据
    SQL-Base 用表组织数据
    SQLserver的基本用法
    C#MyBank(自己的看法,转账有点小问题)
  • 原文地址:https://www.cnblogs.com/yyp-20190107/p/10652571.html
Copyright © 2011-2022 走看看