京东商城大规模爬虫的开发

zoukankan html css js c++ java

京东商城大规模爬虫的开发

先说下这个网站，首先在首页随便输入一个想爬取的商品类别，观察到一般商品数目都是100页的，除非有些比较稀少的商品，如图

小编整理一套Python资料，有需要Python学习资料可以加学习群：923414804 ，在这寒冷的冬天，泡一壶热茶，看书学习，岂不快哉。

介绍一下网站的分析过程，默认情况下在首页输入一件商品时，出来的搜索页面是只有30件商品的，屏幕的右侧下拉框拉到下面会触发一个ajax的请求，把剩下的30个商品渲染出来，一般每页60个商品里面是有三个左右是广告的，也就是有效商品一般是57个。这里看一下这个AJAX请求，这个是爬取难点

看一看这个请求头，我当时第一个感觉以为很多参数是可以去掉，拿到一个很简便的链接就可以了

当时没注意，删了很多参数直接请求，结果调试了很久，获得的商品在插进数据库去重的时候都是只剩网页的一般，细细观察了一下发现链接虽然不同，请求回来的商品却是一样的，然后我再细细看了看这个ajax请求，鼓捣了好久，最终发现这个URL后面的每个数字都是每一件商品的ID，而这个ID隐藏在第一次刚打开网页时候最初的那些商品里面，如图.........

这里结合ajax请求的参数看，

然后我又从新改掉爬虫逻辑，改代码，又花了两个小时，好惨啊.......

然后终于可以一次提取完整的网页商品了，最后提示一下，京东网页第一页的商品里面页数page是显示1和2的，第二页是3和4，这个有点特殊，最后上一张爬虫主程序图

运行结果如图

运行了几分钟，每页一千条，共爬了几万条裤子，京东的裤子真是多

查看全文

相关阅读:
MongoDB集群运维笔记
 第十八节：SSM搭建之分层、聚合、继承、属性、版本管理、资源配置、多环境、跳过测试
 第十六节：SpringMvc拦截器、全局异常处理、RestFul风格编程、文件上传
 Java认证授权框架Spring Security介绍
 干货：RabbitMQ消息队列基本原理介绍
 微服务开发框架 SpringCloud
Pygame实战项目：用300行代码写出贪吃蛇小游戏
 内外盘
 [转贴]太有用了，留存！Kaggle数据下载
 shell执行报错: bash: ./a.sh: /bin/bash^M: bad interpreter: No such file or directory的解决方法

原文地址：https://www.cnblogs.com/paisenpython/p/10291458.html