zoukankan      html  css  js  c++  java
  • 爬虫 移动端数据爬取

    移动的数据的爬取

    - 移动端数据的爬取
    - 抓包工具:
        - fiddler
        - 青花瓷
        - miteproxy
    
        - 环境的搭建
            1.对fiddler进行配置:tools-》options-》connections->Allow remote cooxxx->设定一个端口
            2.测试端口是否可用:在pc浏览器中访问localhost:8886
            3.pc开启一个热点,让手机去连接(保证了手机和fiddler所在的pc是在同一网段下)
            4.在手机上访问localhost:8886进行证书的安装且信任
            5.在手机中设置代理
                - 手机连接的wifi中设定代理ip和端口(都是基于fiddler)

    使用举例

    import requests
    # headers = {
    # #     'User-Agent':'qu tou tiao/3.6.1 (iPhone; iOS 12.3.1; Scale/3.00)/qukan_ios'
    # # }
    # # url = 'https://api.1sapp.com/content/getListV2?qdata=NTRGQzhENkZFMUE1M0I2NkM0QzU2MjZGOEQ3NjI1RkQuY0dGeVlXMGZPRVEyTTBaRFJVTXRRalE0TlMwME1qVkdMVGswUmtNdFEwVkVOemt4TlVRM09ETTJIblpsY25OcGIyNGZOaDV3YkdGMFptOXliUjlwYjNNZVpXTWZNUT09LtagD4vABRxcsa6fa7qpeSB5kCo897LVZGyk2MyKfjIoRx0c9SbUZYexOhselSV%2BhoaUc/BpFA764n5CPUQajjBkMtkiUyhnw9JMPLBL7yfzwHlqwoBf2b%2BqG%2BfJgeug73zQATh9Gm5HaQZcuMV6M2mehrfdVi3hFwSyCVtun8zAqlDpP8hSBrjfiJf8v5%2BqDJzJo9zW8k2dX%2B%2B/o30iwq/Cy2FXeqz8izPZXQO5%2BLDLXmYCKplQzRYT51GIQzIybsgg/sb/as5aziAwV95SpihCfwh1I0c86pOAs5egm93wR3%2Bt/p/PIaubhxsIrA9SFpxkBULVx48Rj/C997VsBbYD7gsNsLtnAqb14V1ZEa1P8OA3yXxW9Hn7C87IVXfm24NBZoZyA6kDh2OP0jP1bItQciJuCAd9mODlSmwxVthrf6iY/PZcl9G4P13%2B1PfCz32kSDItFxLIrtYk%2BOfgjaC3ct9EzjMTEY7SjM0jKQ8lFSEj6cbmZGZIIJcNiSLnokFHAaVDTygfcvmjqrifhYc7pQzzEfqrkPNycl3SC36XU2v16uA5brE4vOUdx2AS2mD%2BH5BGQJOgPgvK6FuFjOaHW1nt9XQCAhwCF4QPSO11z6QyQo0mEbsTeWhvVmnN1BCgOlOI985qquH1nRL/3XGyIK%2B36E2icJZcJxMwi1QM%2BReUsbBLkzX3mYq/hGWeG7nvJUwEI5jhmM1tvI3QRiFK%2B1Zn1DIQVnYOEc8PJwR0rleY8mNDxDZSjJL8kiXlbUUH%2Bg%3D%3D'
    # #
    # # #ERROR:ssl
    # # #verify=False可以忽略证书错误
    # # json_data = requests.get(url=url,headers=headers,verify=False).json()
    # # print(json_data)
    
    #爬取抖音短视频:滑动到某一个视频,然后进入该视频作者的主页,抓取主页中所有的视频数据
    #1.在fillder中需要捕获到api.amemv开头的数据包,(提取url然后将fiddler中所有的请求头信息进行携带然后对该url进行请求发送)这个数据包响应回来的是一组json数据,在json数据中以v9为关键字进行搜索,只要携带v9的url都是你要爬取的视频对应的url
    View Code
    • fiddler简介
    • 手机APP抓包设置
      • fiddler设置
      • 安装证书下载
      • 安全证书安装
      • 局域网设置
      • fiddler手机抓包测试

    1 什么是Fiddler?
        Fiddler是位于客户端和服务器端的HTTP代理,也是目前最常用的http抓包工具之一 。 它能够记录客户端和服务器之间的所有 HTTP请求,可以针对特定的HTTP请求,分析请求数据、设置断点、调试web应用、修改请求的数据,甚至可以修改服务器返回的数据,功能非常强大,是web调试的利器。

        既然是代理,也就是说:客户端的所有请求都要先经过Fiddler,然后转发到相应的服务器,反之,服务器端的所有响应,也都会先经过Fiddler然后发送到客户端,基于这个原因,Fiddler支持所有可以设置http代理为127.0.0.1:8888的浏览器和应用程序。使用了Fiddler之后,web客户端和服务器的请求如下所示:


        利用可以设置代理的这个特点,我们就可以对手机APP进行抓包了。怎么设置?不急不急,让我先把Fiddler安装上吧!

         Fiddler下载地址:https://www.telerik.com/fiddler

        傻瓜式安装,一键到底。Fiddler软件界面如图所示:

    2 手机APP抓包设置

    a. Fiddler设置

        打开Fiddler软件,打开工具的设置。(Fiddler软件菜单栏:Tools->Options)

     在HTTPS中设置如下:

     在Connections中设置如下,这里使用默认8888端口,当然也可以自己更改,但是注意不要与已经使用的端口冲突:

    Allow remote computers to connect:允许别的机器把请求发送到fiddler上来

    b. 安全证书下载
        在电脑浏览器中输入地址:http://localhost:8888/,点击FiddlerRoot certificate,下载安全证书:


    c. 安全证书安装
        证书是需要在手机上进行安装的,这样在电脑Fiddler软件抓包的时候,手机使用电脑的网卡上网才不会报错。

        Android手机安装:把证书放入手机的内置或外置存储卡上,然后通过手机的"系统安全-》从存储设备安装"菜单安装证书。

                                  然后找到拷贝的FiddlerRoot.cer进行安装即可。安装好之后,可以在信任的凭证中找到我们已经安装好的安全证书。

        苹果手机安装:

            - 保证手机网络和fiddler所在机器网络是同一个网段下的

            - 在safari中访问http://fiddle机器ip:fiddler端口,进行证书下载。然后进行安装证书操作。

            - 在手机中的设置-》通用-》关于本机-》证书信任设置-》开启fiddler证书信任

    d. 局域网设置
        想要使用Fiddler进行手机抓包,首先要确保手机和电脑的网络在一个内网中,可以使用让电脑和手机都连接同一个路由器。当然,也可以让电脑开放WIFI热点,手机连入。这里,我使用的方法是,让手机和电脑同时连入一个路由器中。最后,让手机使用电脑的代理IP进行上网。
     在手机上,点击连接的WIFI进行网络修改,添加代理。进行手动设置,ip和端口号都是fiddler机器的ip和fiddler上设置的端口号。

    e. Fiddler手机抓包测试

        上述步骤都设置完成之后,用手机浏览器打开百度首页,我们就可以顺利抓包了

  • 相关阅读:
    python的装饰器
    闭包的概念
    py3.x和py2.x的区别
    python在WIN下CMD运行中文乱码及python 2.x python 3.x编码问题
    python 中文乱码问
    字符编码
    第03章 科学计算库Numpy
    《数据结构与算法》-哈希查找算法
    python寻找小于给定值的最大质数
    《数据结构与算法》-6-七大查找算法-1
  • 原文地址:https://www.cnblogs.com/XLHIT/p/11315182.html
Copyright © 2011-2022 走看看