zoukankan      html  css  js  c++  java
  • 复合数据类型,英文词频统计

    这次作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753

    1.列表,元组,字典,集合分别如何增删改查及遍历。

    (1)列表

    list = ['KOBE', 'INGRAM', 'BALL', 7777];
    list1 = [1,2,3,4,5];
    
    
    list.append('JAMES');
    print ( list);
    
    
    list.extend(list1);
    print ( list);
    
    
    list.insert(1,'KUZMA');
    print ( list);
    
    
    list[0]='MAGIC';
    print ( list);
    

      

    list = ['KOBE', 'INGRAM', 'BALL', 7777];
    list1 = [1,2,3,4,5];
    
    
    del list[1];
    print (list)
    
    
    list.pop()
    print (list)
    
    list.pop(1)
    print (list)
    

      

    list = ['KOBE', 'INGRAM', 'BALL', 7777];
    list1 = [1,2,3,4,5];
    
    
    x = list.index('KOBE');
    print(x);
    
    
    y = list[0];
    print(y);
    
    z = list[1:3];
    print(z);
    

      

    list1 = [1,2,3,4,5];
    
    
    print(len(list1));
    
    
    print(max(list1));
    
    
    print(min(list1));
    

      

    (2)元组

    tup1 = ('KOBE', 'INGRAM', 'BALL', 7777);
    tup2 = (1,2,3,4,5);
    
    tup3 = tup1 + tup2;
    print (tup3);
    

      

    tup1 = ('KOBE', 'INGRAM', 'BALL', 7777);
    tup2 = (1,2,3,4,5);
    
    del tup1;
    

      

    tup1 = ('KOBE', 'INGRAM', 'BALL', 7777);
    tup2 = (1,2,3,4,5);
    
    print ("tup1[0]: ", tup1[0]);
    print ("tup1[1:3]: ", tup1[1:3]);
    

      

    (3)字典

    dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14};
    
    
    dict['KOBE'] = 8;
    print(dict);
    
    dict['HART'] = 5;
    print(dict);
    

      

    dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14};
    
    
    del dict['JAMES'];
    print(dict);
    
    
    dict.clear();
    print(dict);
    
    del dict
    

      

    dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14};
    
    
    print ( dict['KOBE']);
    

      

    (4)集合

    set = {'KOBE', 'JAMES', 'BALL','KUZMA','INGRAM'};
    set.add('magic');
    print(set);
    
    
    set.update({777,888});
    print(set);
    

      

    set = {'KOBE', 'JAMES', 'BALL','KUZMA','INGRAM'};
    set.add('magic');
    print(set);
    
    
    set.remove('JAMES')
    print(set)
    

      

    2.总结列表,元组,字典,集合的联系与区别。

    列表(list)是Python中最有用的一种内置类型,是处理一组有序项目的数据结构,或者说,是一个有序对象的集合。

    元组(tuple)就是不可更改的列表,一旦创建,便不可更改。除了表示的方式有点不一样、元组的元素不可更改,其他的特性与前面学习的列表基本一致。

    字典含义和表示都与我们语义上的感觉近似。像小时候查找汉字,我们通过拼音字母(或笔画)进行索引,Python中的字典我们可以自己定义名字,然后通过这个名字查找到对应的数值。这个名字叫做,对应的数值简称,所以字典也称键值对。需要注意的是,字典没有顺序一说,所有的值仅能用键获取。

    简而言之,字典被看作无序的键值对或有名字的元素列表。

    集合是无序的对象集,它和字典一样使用花括号{},但没有键值对的概念。它属于可变的数据类型,一般用于保持序列的唯一性——也就是同样的元素仅出现一次。

    在使用时一定要注意集合的无序和唯一两个特点,避免出错。

    3.词频统计

    • 1.下载一长篇小说,存成utf-8编码的文本文件 file

      2.通过文件读取字符串 str

      3.对文本进行预处理

      4.分解提取单词 list

      5.单词计数字典 set , dict

      6.按词频排序 list.sort(key=lambda),turple

      7.排除语法型词汇,代词、冠词、连词等无语义词

      • 自定义停用词表
      • 或用stops.txt

           8.输出TOP(20)

    • 9.可视化:词云

     排序好的单词列表word保存成csv文件

    import pandas as pd
    pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')

    线上工具生成词云:
    https://wordart.com/create
  • 相关阅读:
    项目笔记:统计页面功能实现
    jquery easyui datagrid实现数据改动
    Skia图片解码模块流程分析
    TRIZ的成功案例
    基于HTML5的Web SCADA工控移动应用
    webservices系列(五)——javaweb整合Axis2及多service配置
    org.hibernate.PropertyValueException: not-null property references a null or transient value: model.
    线程池和异步线程
    [leetcode]Implement strStr()
    Python工作日类库Busines Holiday介绍
  • 原文地址:https://www.cnblogs.com/liangqiuhua/p/10538398.html
Copyright © 2011-2022 走看看