zoukankan      html  css  js  c++  java
  • Python_记一次网站数据定向爬取实现

    记一次网站数据定向爬取实现

    by:授客 QQ1033553122

    测试环境:

    Python版本:Python 3.4

    Win7

     

    请勿用于商业及非法用途,仅供学习研究用,否则后果自负

     

     

    数据爬取场景

    如下,打开网站查询页面,输入关键字,点击查询

    Python_记一次网站数据定向爬取实现

    如上图,如果记录数比较多,还会有翻页按钮出现

     

     

    Python_记一次网站数据定向爬取实现 

    如上图,右侧还有个最新资助列表,和左侧记录是同一个性质

     

    如下图,点击列表记录,打开以下界面

    Python_记一次网站数据定向爬取实现 

     

    数据爬取需求:获取上述红色选框部分的数据,因为记录检索可能比较多,可能有几百页,所以还要求可以只获取指定翻页数量

     

    程序实现思路

    1、获取关键字查询url

    /index.php?m=&c=Search&a=index&keyword=丰巢&hash=dkFMbUhBTkJIPTNCRjc3Z09yczZVOWRONS1xRE89cU9JPThkTnYzeEM5MW1U&__hash__=77b9003885166213582f27c5e6098d21_53f9dce8d49ffef0259a38cb6a6a3c8b&p=1

     

    2、获取记录页面访问url

     

    3、获取数据

     

    4、翻页查询,并重复1-3

    由第1点可知,翻页查询仅需要替换 &p=1中的数字

     

    需要注意的地方,就是要过滤右侧的 最新资助 列表中的记录链接,另外,要控制翻页数,所以访问xxx……&p=1的链接时,就要获取总记录数,然后计算总的翻页数量

     

    实现效果

    Python_记一次网站数据定向爬取实现 

     

    代码下载

    https://pan.baidu.com/s/1HJkGUgyZOxkjTNpPBrJKzA

     

  • 相关阅读:
    layui下拉框数据过万渲染渲染问题解决方案
    eclipse debug启动时tomcat报错
    用eclipse的同一个tomcat启动两个javaweb项目
    Json
    @ResponseBody
    SpringMVC Controller 介绍
    tianmao项目的学习笔记
    Thymeleaf入门
    Thymeleaf th:include,th:replace使用
    X 在Windows上使用orakill结束oracle会话的线程
  • 原文地址:https://www.cnblogs.com/shouke/p/10157470.html
Copyright © 2011-2022 走看看