zoukankan      html  css  js  c++  java
  • 寒假日报day21

    昨晚在电脑的不懈努力下,在凌晨1.42的时候它完成了工作。

    我在大概晚上7-8点开始的工作,

    本次爬虫大概用时六个小时左右,数据量是13256kb

     这就是本次的爬虫之旅。

     下一步准备在虚拟机上导入hive数据库,进行数据的清洗,统计等操作。

    /********续*******/

    23:21:27

    虚拟机还算。。。。顺利吧(那些心酸就不说了)

    但是呢,可能是爬虫的问题,导致数据重复性很高,看来不用mapreduce处理确实很慢,

    经过我手动处理的数据:

     

     可以看到数据还是有很多重复的,这些只能交给代码来处理了。

    歇了歇了,晚上不便熬夜,电脑晚上跟我不在一个屋。。。

    明天echarts见。。

    哎,

  • 相关阅读:
    php解析xml文件的方法
    while倒数阶乘的和
    菱形代码
    0929课堂随记
    0929作业
    0928练习作业
    HelloJava
    Java例题
    Hello World(本博客启程篇)
    vue 如何实现在函数中触发路由跳转
  • 原文地址:https://www.cnblogs.com/msdog/p/12306434.html
Copyright © 2011-2022 走看看