zoukankan      html  css  js  c++  java
  • 复合数据类型

    1.列表,元组,字典,集合分别如何增删改查及遍历。

    2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面:

    • 括号
    • 有序无序
    • 可变不可变
    • 重复不可重复
    • 存储与查找方式

    3.词频统计

    • 1.下载一长篇小说,存成utf-8编码的文本文件 file

      2.通过文件读取字符串 str

      3.对文本进行预处理

      4.分解提取单词 list

      5.单词计数字典 set , dict

      6.按词频排序 list.sort(key=lambda),turple

      7.排除语法型词汇,代词、冠词、连词等无语义词

      8.输出TOP(20)

    • 可视化:词云

     排序好的单词列表word保存成csv文件

    import pandas as pd
    pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')
    stop=open('stops.txt','r',encoding='utf8').read()
    stop=stop.split()
    stopSet=set(stop)
    
    def gettxt():
        sep = ",.;:?-_"
        txt = open('star.txt','r',encoding='utf8').read().lower()
        for ch in sep:
            txt=txt.replace(ch,' ')
        return txt
    
    starList = gettxt().split()
    starSet = set(starList)
    starSet = starSet-stopSet
    starDict = {}
    for word in starSet:
        starDict[word] = starList.count(word)
    
    word = list(starDict.items())
    word.sort(key=lambda  x:x[1],reverse=True)
    
    import pandas as pd
    pd.DataFrame(data=word).to_csv('star.csv',encoding='utf-8')
    i=0
    while True:
        print(word[i])
        i=i+1
        if i == 19:
            break

     



  • 相关阅读:
    ES集群性能调优链接汇总
    【转】dmesg 时间转换
    广师大笔记汉诺塔
    广师大python学习笔记求派的值
    155. 最小栈(c++)
    160. 相交链表(c++)
    论文 数据集总结
    论文阅读 总结 复习
    121. 买卖股票的最佳时机(c++)
    9. 回文数(c++)
  • 原文地址:https://www.cnblogs.com/gswyz/p/10509340.html
Copyright © 2011-2022 走看看