zoukankan      html  css  js  c++  java
  • 复合数据类型,英文词频统计

    作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753

    1.列表,元组,字典,集合分别如何增删改查及遍历

    列表:

    #列表
    list1 = ['gakki','masami', 1988, 1987]
    list2 = [1, 2, 3, 4, 5]
    list3 = ["a", "b", "c", "d"]
    print ("list1[0]: ", list1[0])
    print ("list2[1:5]: ", list2)
    #增加
    list2.append('6')
    print("list2:",list2[0:100])
    #删除
    print ("原始列表 : ", list3)
    del list3[2]
    print ("删除后列表 : ", list3)
    #更改
    list2[2] = 2001
    print ("更新后的第三个元素为 : ", list2[2])
    #查找
    list4=['Boyoung','gakki','masami']
    a=list4.index('Boyoung')
    print(a)

    元组:

    a = ['Gakki','ranks','first','in','the','world']
    print(a[1:])  # 从左到右 下标1取到最后
    print(a[1:-1])  # 从左到右 从下标1取到倒数第二个
    print(a[1:-1:2])  # 从左到右 从下标1开始取到倒数第二个 步长为2
    print(a[0::2])  # 从左到右 从下标0开始取到最后 步长为2
    print(a[5::-2])  # 从右到左 从下标5开始往前取 步长为2
    # 添加 insert() 添加到指定位置 两个参数
    a.insert(2, 'the')
    print("增加后的元组:",a)
    # 修改
    a[1] = 'win'  # 修改一个值
    print("修改一个单词后的元组:",a)
    a[1:] = ['smiles','like','a','flower']  # 同时修改多个值
    print("修改后的元组:",a)
    # 删除
    a.remove(a[0])  # 删除指定元素
    print("删除后的元组:",a)
    #查找
    # #index 索引 获取下标
    b = a.index('flower')
    print(b)

    字典:

    dict = {"gakki":"朴宝英", "masami":"长泽雅美"}
    #增加
    dict.setdefault("parkboyoung","朴宝英")
    print("增加后的字典:",dict)
    #删除
    del dict['parkboyoung']
    print("删除后的字典:",dict)
    #修改
    dict['gakki'] = 1988;
    dict['masami'] = "1987"
    print("修改后的字典:",dict)
    #查找
    print(dict["gakki"])
    print(dict.get("masami"))#打印对应的内容,key不存在返回none
    print(dict.get("parkboyoung"),"这个键不存在")#key不存在返回输入的内容

    集合:

    s = {1,2,3,4}
    print (s)
    
    #增加
    s.add(1)
    print("增加集合内有的数:",s)
    s.add(8)
    print("增加集合内不存在的数:",s)
    s1 ={ 5,6,7,}
    s.update(s1)
    print("合并集合:",s)
    #删除
    s.pop()
    print("随机删除后:",s)
    s.remove(8)
    print("指定删除后:",s)
    #修改
    s=s|s1
    print("修改后:",s)
    s=s&s1
    print("修改后:",s)
    #查找
    # 交集
    print (s1 & s)
    # 并集
    print (s1 | s)
    # 差集
    print (s1 - s)
    print (s - s1)
    # 对等差分
    print (s1 ^ s)

    遍历函数都相同,其下格式为:

    function.sort()#function可以是列表、元组、字典或者集合任意一种
    for i in function:
        print(i,end='>')

    2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面:

    3.词频统计

    • 1.下载一长篇小说,存成utf-8编码的文本文件 file

      2.通过文件读取字符串 str

      3.对文本进行预处理

      4.分解提取单词 list

      5.单词计数字典 set , dict

      6.按词频排序 list.sort(key=lambda),turple

      7.排除语法型词汇,代词、冠词、连词等无语义词

      • 自定义停用词表
      • 或用stops.txt

           8.输出TOP(20)

    • 9.可视化:词云

     排序好的单词列表word保存成csv文件

    import pandas as pd
    pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')

    线上工具生成词云:
    https://wordart.com/create
    fo = open('Les Miserables.txt', 'r', encoding='utf-8')
    stra = fo.read().lower()
    fo.close()
    print(stra)  # 1.准备utf-8编码的文本文件file 2.通过文件读取字符串 str
    
    sep = ',.;!'
    for ch in sep:
        stra = stra.replace(ch, '')  # 进行预处理,清除掉sep中存在的标点符号
    print(stra)
    
    strList = stra.split(' ')
    print(len(strList), strList)  # 分解提取单词,转化为列表list
    
    strSet = set(strList)
    print(len(strSet), strSet)  # 转化为集合
    
    strDict = {}
    for world in strSet:
        strDict[world] = strList.count(world)
    
    print(len(strDict), strDict)  # 转化为字典,计算上一个集合中每个单词出现的次数
    
    wcList = list(strDict.items())
    print(wcList)  # 将字典中的目录转化为列表输出
    wcList.sort(key=lambda x: x[1], reverse=True)
    print(wcList)  # 按降序输出
    
    e = {'a', 'the', 'an', 'and', 'i', 'or', 'of'}
    strSet = strSet - e
    print(len(strSet), strSet)  # 排除语法型词汇,代词、冠词、连词等无语义词
    
    for i in range(20):
        print(wcList[i])  # TOP20输出
    import pandas as pd
    
    pd.DataFrame(data=wcList).to_csv(r'E:大三用的软件PyCharm Community Edition 2018.3.5homeworkjoker.csv', encoding='utf-8')

    在线词云:

  • 相关阅读:
    40 图 |我用 Mac M1 玩转 Spring Cloud
    # 20 图 |6000 字 |实战缓存(上篇)
    博客园,你肿么了?
    ES 终于可以搜到”悟空哥“了!
    48 张图 | 手摸手教你微服务的性能监控、压测和调优
    植树节,种个二叉树吧?
    紫霞仙子:区块链的十二连问
    太上老君的炼丹炉之分布式 Quorum NWR
    病毒入侵:全靠分布式
    为什么要“除夕”,原来是内存爆了
  • 原文地址:https://www.cnblogs.com/zjby/p/10575938.html
Copyright © 2011-2022 走看看