zoukankan      html  css  js  c++  java
  • 文本分析 笔记

    Python 文本分析 笔记

    中文停用词处理

    自行下载 shotwords.txt,代码如下:

    def stopwordslist(filepath): 
        stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()] 
        return stopwords 
     
     
    # 对句子进行分词 
    def seg_sentence(sentence): 
        sentence_seged = jieba.cut(sentence.strip()) 
        stopwords = stopwordslist('/root/stopwords.txt')  # 这里加载停用词的路径 
        outstr = '' 
        for word in sentence_seged: 
            if word not in stopwords: 
                if word != ' '
                    outstr += word 
                    outstr += " " 
        return outstr
     
  • 相关阅读:
    CSS——半透明
    CSS——dispaly、overflow、visibility、opacity
    html——特例
    CSS——◇demo
    html——ico
    JS——函数
    JS——数组
    JS——for
    JS——i++与++i
    JS——三元表达式
  • 原文地址:https://www.cnblogs.com/dalton/p/11354027.html
Copyright © 2011-2022 走看看