zoukankan      html  css  js  c++  java
  • 寒假日报day02

      今天呢,算是完成昨天的一点小结尾,昨天按照教程爬了半天数据发现没有什么卵用,后来我想找到问题之所在,第一步锁定了网站的正确性上,发现这确实是一个问题,网站404了。后来我按照题目的提示找到首都之窗这个网站,但是寻找他的信件的网络源码的时候发现,他的排版跟以前大不一样了,并不是以前那种可以简单按照网页页数来递增爬取的了,以前是这个样子:

    现在是这个样子:

    首先,网页地址改了,

    并不是

     这个进去是notfound的。

    现在的源码:

     可以看到,这样就不能按照原来的方式进行爬取了,需要另寻出路了,具体如何,下次见。

    今天还顺便吧idea以及scala下载到了本机,虚拟机上的操作等本机熟悉基础操作后在进行。

     我发现,这个idea有好多个版本,很容易搞混。

    Scala的安装;环境变量配置:

     scala的版本信息:

    安装成功,明天继续,休息,zzZ.

    今天爬到的一大堆无用数据:

     

     

     当我看到这些页面的时候本来还很开心,因为第一眼看去有数据!!!再一看不对,都是一样的,按下暂停,一看页面是空的,好了,有问题,回去复查。

  • 相关阅读:
    网页改版的A/B测试(A/B test)
    好看又实用的英文字体
    十大Web压力测试工具
    javascript中的setInterval()方法
    jquery中find方法和children方法的区别
    .net之路
    blur事件
    理解委托的两类必要方法
    jquery中的过滤操作
    推荐一个好的分区软件win7调整磁盘的大小
  • 原文地址:https://www.cnblogs.com/msdog/p/12181199.html
Copyright © 2011-2022 走看看