根据上周的爬取经验,发现bs4,request等直接访问请求头的方法,很难能够爬取知网,不是找不到内容在哪里,就是访问出错,不知道是访问时携带数据的问题,还是被发现是代码访问,被拦截。
所以改变思路使用谷歌驱动器进行爬取,今天完成了第一次专辑链接的爬取。