zoukankan      html  css  js  c++  java
  • python jieba

    pip install jieba
    

    分词

    import jieba 
    seg_list = jieba.cut("我来到清华大学", cut_all=True)
    # join 是 split 的逆操作
    # 即使用一个拼接符将一个列表拼成字符感
    print("/".join(seg_list) # 全模式
          
    seg_list = jieba.cut("我来到清华大学", cut_all=False)
    print("/".join(seg_list)) # 精确模式 默认
          
    seg_list = jieba.cut_for_search("”小明硕士毕业于中国科学院计算所,后来在日本京都大学深造") # 搜索引擎模式
    print("/".join(seg_list))
    

    关键词提取

    import jieba.analyse
    
    content = """中国特色社会主义是我们党领导的伟大事业,全部推进党的建设新的伟大工程,是这
    一伟大事业取得胜利的关键所在。党坚强有力,事业才能兴旺发达,阔家才能繁荣稳定,人民才能幸
    桶安康。党的十八大以来,我们党坚持党要管党、从严治党, 1疑心聚力、直击积弊、扶正被邪,党的
    建设开创新局面,党风政风呈现新气象。围绕从严管党治党提出一系列新的茧要思想,
    为全面推进党的建设新的伟大工程进一步指明了方向。"""
    
    # 第一个参数:待提取关键词的文本
    # 第二个参数:返回关键词的数量,重要性从高到低排序
    # 第三个参数:是否同时返回每个关键词的权重
    # 使用 TF-IDF 提取关键词
    keywords = jieba.analyse.extract_tags(content, topK=20, withWeight=True)
    for key, weight in keywords:
        print(key, weight)
    
    # 使用 TextRank 提取关键词
    keywords = jieba.analyse.textrank(content, topK=20, withWeight=True)
    for key, weight in keywords:
        print(key, weight)
    

    停用词

    from jieba import analyse
    analyse.set_stop_words("stop_word.csv")
    

    stop_word.csv

    此后
    恐怕
    以及
    你
    我
    他
    
  • 相关阅读:
    Scala for the Impatients---(1)Basics
    2.2 Markov Chain
    2.1 Monte Carlo Integration
    1.2 Sampling From Non-standard Distribution
    1.1 Built-in Distributions In Matlab
    Design Pattern -- Builder
    Java Dynamic proxy
    The Difference Between Keypoints and Descriptors
    gcc -l option vs. -L option: The difference
    Stationarity and Independence of Data
  • 原文地址:https://www.cnblogs.com/iFanLiwei/p/12833830.html
Copyright © 2011-2022 走看看