zoukankan      html  css  js  c++  java
  • [Python]利用jieba.analyse进行 关键词 提取

    1、简单应用

    代码如下:

     1 #!/usr/bin/env python
     2 # -*- coding: utf-8 -*-
     3 # @File  : jieba.analyse.py
     4 # @Author: 赵路仓
     5 # @Date  : 2020/3/14
     6 # @Desc  : 提取关键字
     7 # @Contact : 398333404@qq.com 
     8 
     9 import jieba.analyse
    10 
    11 
    12 text='安全、防止水合物和段塞生成的重要措施之一。因此,针对未来还上油田开发技术,我们预先开展了水深1500米管道式油气水分离器的概念设计。通过该研究,提出适合海洋环境的体积小、重量轻、分离效率高、便于操作和维护的新型油气水三相分离器,使其成为海洋深水油气田开'
    13 Key=jieba.analyse.extract_tags(text,topK=3)
    14 print(Key)

     2、含参使用

     keywords = jieba.analyse.extract_tags(content, topK=5, withWeight=True, allowPOS=()) 
    • 第一个参数:待提取关键词的文本
    • 第二个参数:返回关键词的数量,重要性从高到低排序
    • 第三个参数:是否同时返回每个关键词的权重
    • 第四个参数:词性过滤,为空表示不过滤,若提供则仅返回符合词性要求的关键词

    代码如下:

     1 #!/usr/bin/env python
     2 # -*- coding: utf-8 -*-
     3 # @File  : jieba.analyse.py
     4 # @Author: 赵路仓
     5 # @Date  : 2020/3/14
     6 # @Desc  : 提取关键字
     7 # @Contact : 398333404@qq.com 
     8 
     9 import jieba.analyse
    10 
    11 
    12 # 字符串前面加u表示使用unicode编码
    13 content = u'安全、防止水合物和段塞生成的重要措施之一。因此,针对未来还上油田开发技术,我们预先开展了水深1500米管道式油气水分离器的概念设计。通过该研究,提出适合海洋环境的体积小、重量轻、分离效率高、便于操作和维护的新型油气水三相分离器,使其成为海洋深水油气田开'
    14 
    15 keywords = jieba.analyse.extract_tags(content, topK=5, withWeight=True, allowPOS=())
    16 # 访问提取结果
    17 for item in keywords:
    18     # 分别为关键词和相应的权重
    19     print(item[0], item[1])

  • 相关阅读:
    递归 正则表达式 杨辉三角
    js 获取浏览器高度和宽度值
    CSS样式大全
    P2501 [HAOI2006]数字序列 (LIS,DP)(未完成)
    Luogu1064 金明的预算方案 (有依赖的背包)
    Luogu2783 有机化学之神偶尔会做作弊 (树链剖分,缩点)
    Luogu5020 货币系统 (完全背包)
    Luogu2798 爆弹虐场 (二分,Kruskal)
    luogu1419 寻找段落 (二分,单调队列)
    Luogu1083 借教室 (线段树)
  • 原文地址:https://www.cnblogs.com/zlc364624/p/12494125.html
Copyright © 2011-2022 走看看