zoukankan      html  css  js  c++  java
  • Python 爬虫知识点

    一、抓包基础

      在淘宝上搜索“Python机器学习”之后,试图抓取书名、作者、图片、价格、地址、出版社、书店等信息,查看源码发现html-body中没有这些信息,分析脚本发现,数据存储在了g_page_config变量之中,初步分析需要采用抓包技术来获取其他页的数据。以前使用Fiddler非常方便,今天出奇的怪,总是挂掉。经度娘得知还有WireShark神器,可安装后发现太过底层。最后使用浏览器自带的开发者工具,先前仅用到了调试前端页面。如下图:

     数据存储区域:

    开发者工具抓包界面:

    、抓包分析

       1、在搜索结果页,切换页,跟踪页面元素的加载时间,如果时长最长,则有可能是获取数据的链接,连续切换两页之后,发现search地址数据量最大,加载时间最长,初步判断此处有可能是后台获取数据的请求地址。

      2、点击链接后出现几个选项卡,有助于分析返回的数据,如下图:

      3、点击Response,搜索某书店名称,发现确实能搜索到该书店,则可以确认,通过构建此地址,应该是能够获得查询结果数据。

      4、连续切换页码,得到连续的Url,将这些Url拷贝到文件中加以分析。S有可能是当前页显示的数量,data-value表示在上一页的基础之上,增加S个,如44+44=88,88+44=132,132+44=176,基于上述规则构建的URL,在浏览器中查询测试。

      未完待续......

  • 相关阅读:
    UVALive 6909 Kevin's Problem 数学排列组合
    UVALive 6908 Electric Bike dp
    UVALive 6907 Body Building tarjan
    UVALive 6906 Cluster Analysis 并查集
    八月微博
    hdu 5784 How Many Triangles 计算几何,平面有多少个锐角三角形
    hdu 5792 World is Exploding 树状数组
    hdu 5791 Two dp
    hdu 5787 K-wolf Number 数位dp
    hdu 5783 Divide the Sequence 贪心
  • 原文地址:https://www.cnblogs.com/defineconst/p/6181331.html
Copyright © 2011-2022 走看看