zoukankan      html  css  js  c++  java
  • 复合数据类型,英文词频统计

    复合数据类型,英文词频统计

    作业要求来自于https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696

    一、列表,元组,字典,集合的增删改查及遍历

    1.列表

    (1)增:

    1 dict={'tom':1,'ben':5,'amy':3,'jack':7,'yang':6,'wang':9}
    2 dict['li']=8
    3 print(dict)
    zeng4

    运行截图:

    (2)删除:

    1 dict={'tom':1,'ben':5,'amy':3,'jack':7,'yang':6,'wang':9}
    2 del dict['ben']
    3 print(dict)
    shan4

    运行截图:

    (3)修改:

    1 dict={'tom':1,'ben':5,'amy':3,'jack':7,'yang':6,'wang':9}
    2 dict['ben']=8
    3 print(dict)
    gai4

    运行截图:

    (4)查找:

    1 dict={'tom':1,'ben':5,'amy':3,'jack':7,'yang':6,'wang':9}
    2 print(dict['ben'])
    cha4

    运行截图:

    (5)遍历:

    list=['tom','ben','amy','jack','yang','wang']
    for i in range(len(list)):
        print("序号:", i, "  值:", list[i])
    bianli

    运行截图:

     

    2.元组

    (1)增:

    tup1=('tom','ben','amy','jack','yang','wang')
    tup2=('tang','hong')
    tup=tup1+tup2
    print(tup)
    zeng2

    运行截图:

     

    (2)删除:

    tup=('tom','ben','amy','jack','yang','wang')
    print(tup)
    del tup
    print(tup)
    shanchu2

    运行截图:

     

    (3)修改:

    tup=('tom','ben','amy','jack','yang','wang')
    tup=list(tup)
    tup[0]='张四'
    tup[1]='Jacky'
    tup=tuple(tup)
    print(tup)
    xiugai2

    运行截图:

    (4)查找:

    tup=('tom','ben','amy','jack','yang','wang')
    print(tup[2])
    查找2

    运行截图:

    (5)遍历:

    tup=('tom','ben','amy','jack','yang','wang')
    for x in (tup):
        print(x)
    bianli2

    运行截图:

    3.字典

    (1)增:

    zeng2 

    运行截图:

    (2)删除:

    shanchu2

    运行截图:

     

    (3)修改:

    xiugai2

    运行截图:

    (4)查找:

    查找2

    运行截图:

    (5)遍历:

    bianli2

    运行截图:

    4.集合

    (1)增:

    1 s=set(['tom','ben','amy','jack','yang','wang'])
    2 s.add('meng')
    3 print(s)
    zeng5

    运行截图:

    (2)删除:

    1 s=set(['tom','ben','amy','jack','yang','wang'])
    2 s.remove('ben')
    3 print(s)
    shan5

    运行截图:

     

    (3)修改:

    1 s=set(['tom','ben','amy','jack','yang','wang'])
    2 s=list(s)
    3 s[2]='li'
    4 s=set(s)
    5 print(s)
    xiugai5

    运行截图:

     

    (4)遍历: 

    1 s=set(['tom','ben','amy','jack','yang','wang'])
    2 for x in s:
    3     print(x)
    bian5

    运行截图:

     

    二、总结列表,元组,字典,集合的联系与区别。

    1.列表

    (1)括号【中括号】

    (2)有序无序【有序】

    (3)可变不可变【可变】

    (4)重复不可重复【可重复】

    (5)存储与查找方式【存储时每一个元素被标识一个索引,程序只需处理对象的操作】

    2.元组

    (1)括号【小括号】

    (2)有序无序【有序】

    (3)可变不可变【不可变】

    (4)重复不可重复【可重复】

    (5)存储与查找方式【同列表】

    3.字典

    (1)括号【大括号】

    (2)有序无序【无序】

    (3)可变不可变【因为是无序,故不能进行序列操作,但可以在远处修改,通过键映射到值】

    (4)重复不可重复【不可重复】

    (5)存储与查找方式【和列表一样】

    4.集合

    (1)括号【小括号】

    (2)有序无序【无序】

    (3)可变不可变【可变】

    (4)重复不可重复【不可重复】

    (5)存储与查找方式【和列表一样】

    三、词频统计

    源代码如下:

    # 读取文件
    f = open("lem.txt","r")
    text = f.read()
    f.close()
    # 转为小写
    text = text.lower()
    # 将所有其他做分隔符(,.?!)替换为空格
    text = text.replace(","," ").replace("."," ").replace("?"," ").replace("!"," ")
    # 分割为单词
    text = text.split()
    setText = set(text)
    exclude = {'a','the','and','i','you','in','but','not','with','by','its','for','of','an','to'}
    setText = setText-exclude
    # 转为字典
    textDict = {}
    for word in setText:
        textDict[word] = text.count(word)
    # 转为列表
    word = list(textDict.items())
    word.sort(key = lambda x:x[1],reverse=True)
    print(word[:20])
    # 生成excel
    import pandas as pd
    pd.DataFrame(data=word).to_csv('lem.csv',encoding='utf-8')
    lem

    词云如下:

  • 相关阅读:
    松软科技web课堂:SQLServer之UCASE() 函数
    松软科技web课堂:SQLServer之HAVING 子句
    SQLServer之GROUP BY语句
    松软科技web课堂:SQLServer之SUM() 函数
    松软科技web课堂:SQLServer之MIN() 函数
    SQLServer之MAX() 函数
    松软科技web课堂:SQLServer之LAST() 函数
    松软科技带你学开发:SQL--FIRST() 函数
    松软科技带你学开发:SQL--COUNT() 函数
    NodeJS初介
  • 原文地址:https://www.cnblogs.com/lys1894/p/10533722.html
Copyright © 2011-2022 走看看