1、创建一个简单的scrapy项目
scrapy startproject search(项目名称)
按照提示
cd search
scrapy genspider serachname search.com
生成的项目结构如下:
searchname.py :
1、一种方式,入口为 start_urls =[]
2、另外一种方式,重写start_requests, 这里yield出去一个Request, 且不带callback参数,则默认回调parse方法
可以yield request, 可以yield item, 也可以yield {‘’:‘’} dict类型数据到管道中,在管道中进行处理
如果需要入库或者进行抓取的数据,可以记录到item中去,进行后续的处理。
在item中进行各种类型的数据定义,比较简单;并引入到spider中去使用
pipelines.py