zoukankan      html  css  js  c++  java
  • 爬虫再探实战(五)———爬取APP数据——超级课程表【二】——词频分析

        上一篇已经将数据抓到手了,那么来分析一下吧。这里是用python简单处理数据,之后用EXCEL 作图,没错,,,还是EXCEL。其实分析这些数据有更好的工具,比如R。。。不过目前不会啊,就先EXCEL凑活着用吧。

        这里一共分析了三个方面:TOP10 word;时间与发帖量的关系,日期与发帖量的关系。

        PROJECT1:TOP10 WORD

        注意这里的top_words.txt是我用xlrd取出文字后保存在记事本中,去掉标点后得到的(这个羞耻的过程就不展示了。。。以后找到更好的办法再来改写)

    #!/usr/bin/python
    #-*- coding : utf-8 -*-
    import xlrd
    import xlsxwriter
    from collections import Counter
    
    with open('top_words.txt', encoding='utf-8') as f:
    	# print(f.read())
    	l = list(f.read())
    	print(l)
    word_dict = Counter(l).most_common()
    # print(word_dict)
    workbook = xlsxwriter.Workbook('top_words.xlsx')
    worksheet = workbook.add_worksheet()
    worksheet.set_column('A:A', 10)
    worksheet.set_column('B:B', 10)
    worksheet.write(0,0,'关键字')
    worksheet.write(0,1,'频数')
    i = 1
    num = []
    for k, v in word_dict:
    	i += 1
    	worksheet.write(i,0,k)
    	worksheet.write(i,1,v)
    	num.append(v)
    workbook.close()
    print(num)
    

        输出EXCEL表格如下(一部分):

        简单做个图:

  • 相关阅读:
    习题解答chapter-01
    Java-chapter-01 菜鸟初见Java
    ijkdemo
    1027
    avformat_seek_file
    pla
    android1010横屏等
    文件浏览对话框
    智能指针处理---bo
    Js为Dom元素绑定事件须知
  • 原文地址:https://www.cnblogs.com/buzhizhitong/p/5714467.html
Copyright © 2011-2022 走看看