1、分析整个网页
首先需要获取到cookies,因为它是动态的,所以每隔一段时间都需要进行重新的获取
2、发送请求
当你获取到指定时间段的cookie之后,下一步要做的就是通过整个cookie和url放在一起朝服务器发送请求,获取到服务器发送出来的数据(得到之后需要使用json进行反序列化)
3、对当前页面数据中的内容进行指定的操作
如果你想要得到一大串数据中的指定的内容,那么你就可以通过一些第三方的类库来对这段数据进行操作
4、对url进行循环从而获取到所有当前的数据内容
一个url只是一个页面的数据而已,如果想要获取多个页面的数据的话,就需要这个url中的某一个内容进行循环来得到所有url
总结:
动态cookie获取跳过了获取当前页面源代码的过程,直接得到了json数据来进行相关的操作,减少了复杂度
通过cookie+url的结合向服务端发送请求得到一个返回值就是Network中的preview中的数据
referer:
动态cookie需要进行实时更新,不然利用这个cookie获取了几次数据之后就可能获取不到内容了而产生异常
问题:
只能返回一种类型,比如搜索了爬虫就不能搜索python 了
解决:
cookie是动态分配的,所以要抓准时间,一个cookie在使用指定次数之后就需要更新这个cookie了,不然就会抛异常