zoukankan      html  css  js  c++  java
  • 记录一次爬虫方法

      虽然现在看来没有什么难度,但是当时第一次的时候没有找到方法,现在把整个过程记录一下供自己日后参考,也给初学者一个参考。话不多说,开干。

      目的:爬取一下物联网卡的流量和到期时间等参数,这样可以提前提醒自己避免流量用完带来的影响。

      

      分析:

      1、网站有一个登录界面,所有的请求必须要登录后才能访问,因此我们先要模拟登录。

      2、登录成功后需要访问流量卡界面,因此需要模拟请求得到流量卡信息(一般都是动态加载的数据,如果是静态页面就直接解析静态页面数据)

      

      一、开始 模拟登录:

      1、打开登录网址 邮件检查可以看到有个提交函数

    2、,找到函数实现 可以看见是一个post请求将有户名密码传入后台服务器。服务器返回一个url跳转到主页。

    3、使用postman来验证,可以看见登录成功

    二、开始寻找获取流量卡信息接口

      1、按F12 点击network XHR 点击请求按钮

      2、可以看见有个请求链接,点击可以看见是一个json的数据,里面正是我们要的数据。

    但是直接复制连接不能得到数据,会返回一个找不到404错误。

    3、点开heards,拉到底可以看见一个formdata

     4、使用postman验证 可以看到返回我们想要的数据

    最后使用scarpy框架来爬取数据

    最后贴一张scrapy的安装包结构,从下网上安装 

      

    到此整个爬虫结束。

  • 相关阅读:
    自考新教材-p145_5
    自考新教材-p144_4
    自考新教材-p144_3
    自考新教材-p143_2
    自考新教材-p142_3(1)
    【SQL server】安装和配置
    【,net】发布网站问题
    【LR】关于宽带与比特之间的关系
    【LR】录制测试脚本中的基本菜单
    【LR】安装LR11后遇到的问题
  • 原文地址:https://www.cnblogs.com/tpcwlilacfover/p/15015638.html
Copyright © 2011-2022 走看看