zoukankan      html  css  js  c++  java
  • Python jieba 分词

    • 环境

    Anaconda3 Python 3.6, Window 64bit

    • 目的

    利用 jieba 进行分词,关键词提取

    • 代码
    # -*- coding: utf-8 -*-
    
    import jieba
    import jieba.posseg as jbpos
    import jieba.analyse as jbal
    
    '''
    词性说明:
    a:形容词
    d:副词
    i:成语
    m:数词
    n:名词
    nr:人名
    ns:地名
    nt:机构团体
    nz:其他专有名词
    t:时间
    v:动词
    x:标点符号
    f:方位词
    un:未知
    '''
    
    string1 = "国内掀起了大数据、云计算的热潮。"
    
    # 全模式
    w1 = jieba.cut(string1, cut_all=True)
    # for i in w1:
    #     print(i)
    
    # 精准模式,默认是精准模式
    w2 = jieba.cut(string1)
    # for i in w2:
    #     print(i)
    # print("<----------->")
    
    # 搜索引擎模式
    w3 = jieba.cut_for_search(string1)
    # for i in w3:
    #     print(i)
    # print("<----------->")
    
    # 词性标注
    w4 = jbpos.cut(string1)
    # for i in w4:
    #     print(i.word + "--" + i.flag)
    # print("<----------->")
    
    # 词典加载
    # jieba.load_userdict("dict2.txt")
    string2 = "国内掀起了大数据、云计算的热潮。仙鹤门地区。"
    #word 词语,flag 词性
    w5 = jbpos.cut(string2)
    for i in w5:
        print(i.word + "--" + i.flag)
    print("<----------->
    ")
    
    # 更改词频-单个词
    jieba.suggest_freq("大数据", True)
    jieba.suggest_freq("云计算", True)
    w6 = jbpos.cut(string2)
    for i in w6:
        print(i.word + "--" + i.flag)
    print("<----------->
    ")
    
    # 动态修改词典 删除词 del_word
    jieba.add_word("仙鹤门")
    w7 = jbpos.cut(string2)
    for i in w7:
        print(i.word + "--" + i.flag)
    print("<----------->
    ")
    
    # 提取关键词 第二个参数控制提取参数个数
    w8 = jbal.extract_tags(string2, 5)
    print(w8)
    View Code
    • 结果展示

  • 相关阅读:
    P1308 统计单词数(cin,getline() ,transform() )
    解决ASP.NET中的各种乱码问题
    GUID
    c# Thread、ThreadPool、Task的区别
    线程学习参考
    异步
    Lamda简单使用
    ubuntu上安装docker
    Git设置ssh密钥
    Git客户端(TortoiseGit)基本使用详解
  • 原文地址:https://www.cnblogs.com/kimbo/p/6607042.html
Copyright © 2011-2022 走看看