上一期博客,我本来想爬取美团美食的,但是由于请求头太复杂,没有破解开其中的几个参数,所以放弃,这次我们来用selenium来模式浏览器抓取数据,我们先来简单看一下流程:
1,利用selenium驱动浏览器,得到美食列表
2,分析网页,并给予翻页后续的美食列表
3,分析提取数据(pyQuery)
项目一:美团美食
项目地址:https://gitee.com/dwyui/pyQuery_selenium.git
由于美团反扒严重,只爬取到部分数据,可以尝试修改间隔时间来多次尝试。
也可以自己尝试使用PhantomJS来爬取数据,和原来的代码几乎一致.