zoukankan      html  css  js  c++  java
  • 定向爬虫之爬一爬各个学校新闻的认识(【1】对Url的认识)

      昨天早上,我习惯性的打开博客园,看一看别人的写的博客。突然想起,自己好像没有写过什么博客,所以就心血来潮,把我现在做得事情写出来,

    这也是对我目前的学习的一种总结。望大神指点。。。。

         对于一间学校的新闻,主要有两种值得去捉取的Url,一种是List页面的Url,一种是Detail页面的Url,List页和Detail页面是我对如下的两种Url的简称。

    List页面】List页面类型:http://news2.sysu.edu.cn/news01/index.htm

    Detail页面】Detail页面类型:http://news2.sysu.edu.cn/news01/140075.htm

    在详细介绍学校的Url之前,必须要懂得三个名词,分别是静态Url伪静态Url,和动态Url

    根据某个网站的解释:http://www.admin5.net/thread-2214256-1-1.html

      一个动态的网址是一个网页解决这一结果从搜索的数据库驱动的网站或URL中的一个网站,运行一个脚本。相比之下,以静态的URL ,其中的内容网页上

    保持不变,除非改变硬编码到HTML格式的,动态的URL产生的具体问题给某个站点的数据库。动态页基本上只有一个模板,其中,以展示成果数据库查询。

    而不是不断变化的信息,在HTML源代码中,数据的改变而改变在数据库中。

         伪静态Url就是把动态Url经转化而成的静态Url。

      基本大部分学校的List页面和Deteal页面都会使用伪静态的Url,也会存在少部分使用动态Url的学校,还有小部分的使用ajax加json或者xml来加载页面的学校。

    所以先说说List页面的伪静态Url的情况。

         List页面的伪静态Url:上面提到,伪静态Url是由动态Url转化而来的,其本质还是动态Url,所以其里面是包含这查询字符串的。所以这个查询字符串就是这个Detail

    页面的特征量,一般来说这个特征量由两部分组成,第一个是栏目,第二个是页数。不过仅仅是一般来说是这样,有小部分比较奇葩的大学却在页数中做文章。一般会分成

    3种情况。

      情况1:第一页和以后的的List页面的Url的规律不一样,首页【http://news.gcu.edu.cn/news/xinwen/xinwen.html】,

    非首页【http://news.gcu.edu.cn/news/xinwen/xinwen_2.html】,首页的Url居然不是http://news.gcu.edu.cn/news/xinwen/xinwen_1.html,这种情况是最

    常发生的,我也不知道为什么,大牛们可以告诉我这是出于什么目的????

      情况2:List的是按时间来展示的http://www.gdyzy.edu.cn/DocLib2/Forms/AllPages.aspx?Paged=TRUE&p__x65e5__x671f_=20140302%2016%3a00%3a00&p_ID=1615&View=%7b3C7F240C-0A23-4972-9796-B26C42EF4948%7d&PageFirstRow=101

    其中标红的20140302%2016%3a00%3a00解码之后是20140302 16:00:00,这个Url意思是查询在20140302 16:00:00之前发布的前100条记录,这些记录明显是按时间排序的。

        情况3:List页面是以倒叙的方式展示的,代表为广外,首页Url【http://new1.gdufs.edu.cn/xxyw.htm】,第二页Ulr【http://new1.gdufs.edu.cn/xxyw/1152.htm】,

    第三页Url【http://new1.gdufs.edu.cn/xxyw/1151.htm】,原理为按发布时间排序,最早发布的前20条记录为第一页,所以就会出现跟普通的List页面不一样的情况。

      List页面的使用静态Ur:一般都是使用Post的方式的,并且是使用ajax来加载数据的。例子:http://www.gdrtvu.edu.cn/cms/wwwgdrtvu/xuexiaoxinwen/xuexiaoyaowen/index.xml Post的数据temp=0.664261247497052&&&&&page=5&size=15。

      List页面使用动态Url:例子http://www.gtxy.cn/xyxwnew.asp?cid=24&page=2,这种Url对于我来说是最简单,也是做容易实现捉取的动作的。

    时间不早了,学生党需要吃饭勒,必须吐槽一下学校的饭堂,能不能卫生一点啊!!!有空继续。。。

  • 相关阅读:
    docker 的基本使用
    yum 工具安装的程序默认目录与位置
    Tampermonkey 脚本记录
    Windows 安装配置sublime-text3与破解
    heidisql 轻量级工具
    ubuntu 系统配置静态IP地址
    linux 日志分析
    Windows 桌面整理工具
    高效实用Linux命令行
    物联网实验4 alljoyn物联网实验之手机局域网控制设备
  • 原文地址:https://www.cnblogs.com/WEI-CONG/p/3958518.html
Copyright © 2011-2022 走看看