首先,需要在linux下进行安装scrapy,假如linux系统自带的python是2.4版,那么就需要自己安装python2.6,假如是用的比较“先进" 的linux,那么里面内置的就是python2.6,那么是不是就符合我们对于python的要求了呢?不是,系统自带的python缺少python-dev, 然后安装setuptool工具,然后使用easy_install -U Scrapy来安装scrapy,假如还有其他需求可以自己装。那么在自己机器上使用scrapy开发完项目后,需要注意到在上传到服务器后,需要配置环境变量,即将当前这个项目也加入上可执行的环境变量中,那么加环境变量有几种方法,比如可以写个bash/shell脚本,使用export。也可以作为一个python程序员,直接在setting文件中加入
import os
import time
import sys
sys.path.append('%s' % os.getcwd())
BOT_NAME = 'crawl'
BOT_VERSION = '1.0'
SPIDER_MODULES = ['crawl.spiders']
NEWSPIDER_MODULE = 'crawl.spiders'
DEFAULT_ITEM_CLASS = 'crawl.items.CrawlItem'
USER_AGENT = '%s/%s' % (BOT_NAME, BOT_VERSION)
ITEM_PIPELINES = ['crawl.pipelines.CrawlPipeline']
DEPTH_LIMIT = 5
DOWNLOAD_DELAY = 3
LOG_LEVEL = 'ERROR'