scrapy snippet

1. spider文件

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector

item = DomzItem()
image_urls = hxs.select('//img/@src').extract()
item['image_urls'] = ["http:" + x for x in image_urls]
return item

from scrapy.selector import HtmlXPathSelector
hxs = HtmlXPathSelector(response)

class MySpider(CrawlSpider): #控制下载速度
    name = 'myspider'
    download_delay = 2

$ scrapy crawl somespider -s JOBDIR=crawls/somespider-1
  
#这样开始下载之后可以Ctrl + C停止，恢复下载还是同样的命令

$ scrapy crawl somespider -s JOBDIR=crawls/somespider-1

name = "wikipedia"
allowed_domains = ["wikipedia.org"]
start_urls = [
　　"http://en.wikipedia.org/wiki/Pune"
]

2. setting文件

ITEM_PIPELINES = ['scrapy.contrib.pipeline.images.ImagesPipeline']
IMAGES_STORE= '...'

3. item 文件

 image_urls = Field()
 images = Field()

查看全文

相关阅读:
Unity3D学习笔记（十九）：UGUI、Image、Text、Button
Unity3D学习笔记（十八）：动画内容补充
 Unity3D学习笔记（十七）：IK动画、粒子系统和塔防
 Unity3D学习笔记（十六）：Animator新动画
 Unity3D学习笔记（十五）：寻路系统
 Unity3D学习笔记（十四）：Animation旧动画
 Unity3D学习笔记（十三）：委托、考试复习
 Unity3D学习笔记（十二）：2D模式和异步资源加载
 加密解密
 linux 常用命令

原文地址：https://www.cnblogs.com/bushe/p/4003392.html