zoukankan html css js c++ java

Python jieba 分词

环境

Anaconda3 Python 3.6, Window 64bit

目的

利用 jieba 进行分词，关键词提取

代码

# -*- coding: utf-8 -*-

import jieba
import jieba.posseg as jbpos
import jieba.analyse as jbal

'''
词性说明:
a:形容词
d:副词
i:成语
m:数词
n:名词
nr:人名
ns:地名
nt:机构团体
nz:其他专有名词
t:时间
v:动词
x:标点符号
f:方位词
un:未知
'''

string1 = "国内掀起了大数据、云计算的热潮。"

# 全模式
w1 = jieba.cut(string1, cut_all=True)
# for i in w1:
#     print(i)

# 精准模式，默认是精准模式
w2 = jieba.cut(string1)
# for i in w2:
#     print(i)
# print("<----------->")

# 搜索引擎模式
w3 = jieba.cut_for_search(string1)
# for i in w3:
#     print(i)
# print("<----------->")

# 词性标注
w4 = jbpos.cut(string1)
# for i in w4:
#     print(i.word + "--" + i.flag)
# print("<----------->")

# 词典加载
# jieba.load_userdict("dict2.txt")
string2 = "国内掀起了大数据、云计算的热潮。仙鹤门地区。"
#word 词语，flag 词性
w5 = jbpos.cut(string2)
for i in w5:
    print(i.word + "--" + i.flag)
print("<----------->
")

# 更改词频-单个词
jieba.suggest_freq("大数据", True)
jieba.suggest_freq("云计算", True)
w6 = jbpos.cut(string2)
for i in w6:
    print(i.word + "--" + i.flag)
print("<----------->
")

# 动态修改词典 删除词 del_word
jieba.add_word("仙鹤门")
w7 = jbpos.cut(string2)
for i in w7:
    print(i.word + "--" + i.flag)
print("<----------->
")

# 提取关键词 第二个参数控制提取参数个数
w8 = jbal.extract_tags(string2, 5)
print(w8)

View Code

结果展示

查看全文

相关阅读:
分类在使用runtime做方法交换时
 打包自己Framework中含有第三方库的解决方案分CocoaPods与手动导入两种方式
 iOS 百分比圆环曲线swift4.0实现
 最新swift4.0 图片进行尺寸大小及体积压缩
 swift 密码由6-16数字和字母组合组成
 Android 7.0 之后相机/文件读写等权限获取方式改变，导致开启相机闪退
 Android Manifest 中 uses-feature 和 uses-permission的作用关系和区别
 Android studio 3.1.3真机调试报错，no target device found
如何用Java实现条件编译
 Missing android.support.FILE_PROVIDER_PATHS meta-data 报错原因分析

原文地址：https://www.cnblogs.com/kimbo/p/6607042.html