参考以下博文:
1.https://cuiqingcai.com/4380.html
2.https://www.cnblogs.com/zhaof/p/7228131.html
文章实现了scrapy框架爬取信息,利用mongodb存储数据。
注意点:
1.在爬取中,要注意robot协议的设置,不然会报40x错误。
2.注意scrapy框架的爬取下一页,各个解析函数功能的设置,利用yield生成器完成相应返回。
3.在scrapy中,既可以在spider中写代码实现相应功能,也可以在setting配置模块中直接填写参数实现功能。