其实爬取某宝评论和上一篇爬取新浪微博是一个思路。这次把思路讲得更清楚,更全面一些。
我们需要爬取的评论界面是:
爬取之前需要知道的知识点:页面的部分内容是动态加载的,是通过ajax来进行异步加载的。比如说,首页有一个版块,它并不是一开始就包含在首页的文件里,而是之后随着浏览者的需要才加载进来的。
而我们要爬取的评论也就是这样一个东西,我们只需要通过浏览器的抓包工具,分析出我们需要数据的url就可以了,那么如何从众多的url中找到它呢,是有一定的技巧的。
我们可以利用它是加载的特点来看,一,它是在我们点击评论后才会被请求,我们可以在打开该页面后再启用抓包工具,这样就只会出现与评论有关的请求了。二,我们在众多的请求中如何找到它呢,很明显,它是一个由js触发的请求,知道 了上述两点无疑会让我们更容易找到它。我也很轻松地就找到了。
我们可以将它在浏览器中先打开看一下。
之后要做的事就是如何从这一堆数据中获取评论的内容了。