zoukankan      html  css  js  c++  java
  • python jieba

    pip install jieba
    

    分词

    import jieba 
    seg_list = jieba.cut("我来到清华大学", cut_all=True)
    # join 是 split 的逆操作
    # 即使用一个拼接符将一个列表拼成字符感
    print("/".join(seg_list) # 全模式
          
    seg_list = jieba.cut("我来到清华大学", cut_all=False)
    print("/".join(seg_list)) # 精确模式 默认
          
    seg_list = jieba.cut_for_search("”小明硕士毕业于中国科学院计算所,后来在日本京都大学深造") # 搜索引擎模式
    print("/".join(seg_list))
    

    关键词提取

    import jieba.analyse
    
    content = """中国特色社会主义是我们党领导的伟大事业,全部推进党的建设新的伟大工程,是这
    一伟大事业取得胜利的关键所在。党坚强有力,事业才能兴旺发达,阔家才能繁荣稳定,人民才能幸
    桶安康。党的十八大以来,我们党坚持党要管党、从严治党, 1疑心聚力、直击积弊、扶正被邪,党的
    建设开创新局面,党风政风呈现新气象。围绕从严管党治党提出一系列新的茧要思想,
    为全面推进党的建设新的伟大工程进一步指明了方向。"""
    
    # 第一个参数:待提取关键词的文本
    # 第二个参数:返回关键词的数量,重要性从高到低排序
    # 第三个参数:是否同时返回每个关键词的权重
    # 使用 TF-IDF 提取关键词
    keywords = jieba.analyse.extract_tags(content, topK=20, withWeight=True)
    for key, weight in keywords:
        print(key, weight)
    
    # 使用 TextRank 提取关键词
    keywords = jieba.analyse.textrank(content, topK=20, withWeight=True)
    for key, weight in keywords:
        print(key, weight)
    

    停用词

    from jieba import analyse
    analyse.set_stop_words("stop_word.csv")
    

    stop_word.csv

    此后
    恐怕
    以及
    你
    我
    他
    
  • 相关阅读:
    FastJson--阿里巴巴公司开源的速度最快的Json和对象转换工具
    如何去设计一个自适应的网页设计或HTMl5
    教育行业SaaS选型 需要注意的三点问题
    SaaS系列介绍之十五: SaaS知识重用
    SaaS系列介绍之十四: SaaS软件开发分析
    SaaS系列介绍之十三: SaaS系统体系架构
    SaaS系列介绍之十二: SaaS产品的研发模式
    个人总结
    用例图设计
    第二次结对作业
  • 原文地址:https://www.cnblogs.com/iFanLiwei/p/12833830.html
Copyright © 2011-2022 走看看