Scrapy命令行基本用法 - 走看看

zoukankan html css js c++ java

Scrapy命令行基本用法
1.创建一个新项目：
scrapy startproject myproject
　

2.在新项目中创建一个新的spider文件：
scrapy genspider mydomain mydomain.com
mydomain为spider文件名，mydomain.com为爬取网站域名

3.全局命令：
startproject genspider settings runspider shell fetch view version
4.只在项目中使用的命令（局部命令）：
crawl check list edit parse bench
5.运行spider文件：
scrapy crawl <spider>
　　

6.检查spider文件有无语法错误：
scrapy check
7.列出spider路径下的spider文件：
scrapy list
8.编辑spider文件：
scrapy edit <spider>
相当于打开vim模式，实际并不好用，在IDE中编辑更为合适。

9.将网页内容下载下来，然后在终端打印当前返回的内容，相当于 request 和 urllib 方法：
scrapy fetch <url>
10.将网页内容保存下来，并在浏览器中打开当前网页内容，直观呈现要爬取网页的内容:　
scrapy view <url>
11.打开 scrapy 显示台，类似ipython，可以用来做测试：
scrapy shell [url]
12.输出格式化内容：
scrapy parse <url> [options]
13.返回系统设置信息：
scrapy settings [options]
如：
$ scrapy settings --get BOT_NAME scrapybot
14.运行spider：
scrapy runspider <spider_file.py>
15.显示scrapy版本：
scrapy version [-v]
后面加 -v 可以显示scrapy依赖库的版本

16.测试电脑当前爬取速度性能：
scrapy bench
　
查看全文

相关阅读:
BPM平台在企业业务系统中使用的价值讨论
 零售餐饮行业的信息化建设
 LINQ 与Oracle应用：转帖
 k2之于.NET流程应用开发者
 利用xslt导出复杂样式的excel,支持多个worksheet
利用偏移量快速定位数据内容
 简单天气项目中观察者模式解析
 作业3：基于墨刀的:视频剪辑软件原型设计
 必做作业2:视频剪辑软件调研
 .Net Core项目依赖项问题

原文地址：https://www.cnblogs.com/weixuqin/p/8431314.html

Copyright © 2011-2022 走看看