之前在http://www.cnblogs.com/coco1s/p/4954063.html这里看到一篇比较好的Node爬虫,其中有个问题:
我们自己进到博客园的这里,发现:
这个请求是POST的,而在上几篇博文我整理到了GET和POST的区别,具体看http://www.cnblogs.com/zhangmingzhao/p/7702000.html
这里的URL虽然是https://www.cnblogs.com/#p3,爬虫如果还是用这个做请求,不能得到正确的第三页数据,因为点第三页的时候,这个本是向服务器发送了一个异步POST请求,显示出来的URL是被加工的,一般我们不能根据POST请求从URL上得出信息,这里还是利用开发者工具抓取到这个包数据,用转码后的实际url参数http://www.cnblogs.com/?CategoryId=808&CategoryType=%22SiteHome%22&ItemListActionName=%22PostList%22&PageIndex=15&ParentCategoryId=0 就成功了。