主要内容:
1 在scrapy框架中获取需要的字符串的方法:
img_url = 'http://pic.netbian.com'+li.xpath("./a/span/img/@src").extract_first()
img_url = 'http://pic.netbian.com'+li.xpath("./a/span/img/@src")[0]extract()
2 持久化存储的两种方法:
1) 基于终端命令的存储: scrapy crawl 文件名 -o 文件路径(-content.csv)
2) 基于管道的存储
可以存在本地; mysql数据库, 或者redis数据库
代码: 爬虫 第五天
3 yield命令:
1) 向管道提交item对象
2) 手动发请求