相关介绍
淘宝的整个页面数据确实也是通过Ajax获取的,但是这些 Ajax 接口参数比较复杂,可能会包含加密密钥等参数,所以我们如果想自己构造 Ajax 参数是比较困难的,对于这种页面我们最方便快捷的抓取方法就是通过 Selenium,本节我们就来用 Selenium 来模拟浏览器操作,抓取淘宝的商品信息,并将结果保存到 MongoDB。
目标
本节我们要利用 Selenium 抓取淘宝商品并用 PyQuery 解析得到商品的图片、名称、价格、购买人数、店铺名称、店铺所在地信息,并将其保存到MongoDB。
准备工作
本节首先以 Chrome 为例来讲解 Selenium 的用法,在本节开始之前请确保已经正确安装好了 Chrome 浏览器并配置好了 ChromeDriver,另外还需要正确安装好 Python 的 Selenium 库,最后还对接了 PhantomJS 和 Firefox,请确保安装好了 PhantomJS 和 Firefox 并配置好了 GeckoDriver。