zoukankan      html  css  js  c++  java
  • python jieba

    pip install jieba
    

    分词

    import jieba 
    seg_list = jieba.cut("我来到清华大学", cut_all=True)
    # join 是 split 的逆操作
    # 即使用一个拼接符将一个列表拼成字符感
    print("/".join(seg_list) # 全模式
          
    seg_list = jieba.cut("我来到清华大学", cut_all=False)
    print("/".join(seg_list)) # 精确模式 默认
          
    seg_list = jieba.cut_for_search("”小明硕士毕业于中国科学院计算所,后来在日本京都大学深造") # 搜索引擎模式
    print("/".join(seg_list))
    

    关键词提取

    import jieba.analyse
    
    content = """中国特色社会主义是我们党领导的伟大事业,全部推进党的建设新的伟大工程,是这
    一伟大事业取得胜利的关键所在。党坚强有力,事业才能兴旺发达,阔家才能繁荣稳定,人民才能幸
    桶安康。党的十八大以来,我们党坚持党要管党、从严治党, 1疑心聚力、直击积弊、扶正被邪,党的
    建设开创新局面,党风政风呈现新气象。围绕从严管党治党提出一系列新的茧要思想,
    为全面推进党的建设新的伟大工程进一步指明了方向。"""
    
    # 第一个参数:待提取关键词的文本
    # 第二个参数:返回关键词的数量,重要性从高到低排序
    # 第三个参数:是否同时返回每个关键词的权重
    # 使用 TF-IDF 提取关键词
    keywords = jieba.analyse.extract_tags(content, topK=20, withWeight=True)
    for key, weight in keywords:
        print(key, weight)
    
    # 使用 TextRank 提取关键词
    keywords = jieba.analyse.textrank(content, topK=20, withWeight=True)
    for key, weight in keywords:
        print(key, weight)
    

    停用词

    from jieba import analyse
    analyse.set_stop_words("stop_word.csv")
    

    stop_word.csv

    此后
    恐怕
    以及
    你
    我
    他
    
  • 相关阅读:
    Security and Cryptography in Python
    Security and Cryptography in Python
    Security and Cryptography in Python
    Security and Cryptography in Python
    Security and Cryptography in Python
    Security and Cryptography in Python
    Security and Cryptography in Python
    《EffectiveJava中文第二版》 高清PDF下载
    《MoreEffectiveC++中文版》 pdf 下载
    《啊哈c语言》 高清 PDF 下载
  • 原文地址:https://www.cnblogs.com/iFanLiwei/p/12833830.html
Copyright © 2011-2022 走看看