zoukankan      html  css  js  c++  java
  • <scrapy爬虫>scrapy命令行操作

    1.mysql数据库
    2.mongoDB数据库
    3.redis数据库
    
    
    1.创建项目
    	scrapy startproject myproject
    	cd myproject
    
    2.创建爬虫
    	scrapy genspider myspider www.baidu.com
    	scrapy genspider -t crawl myspider www.baidu.com----创建有rules配置
    
    3.运行爬虫
    	scrapy crawl myspider
    
    4.错误检查
    	scrapy check ----检查爬虫的语法错误
    
    5.列出爬虫
    	scrapy list --返回项目里spider名称
    6.测试网页
    	scrapy fetch www.baidu.com
    	scrapy fetch --nolog www.baidu.com ----不会生成日志
    	scrapy fetch --nolog --headers www.baidu.com 	--输出headers
    	scrapy fetch --nolog --no-redirect---不会重定向
    7.请求网页 把网页源代码保存成文件,在用浏览器打开(调试工具)
    	scrapy view http://www.baidu.com
    
    8.命令行交互模式shell
    	scrapy shell http://www.baidu.com
    	request---请求的网页
    	response--请求网页的返回结果
    	response.text请求结果
    	response.headers--headers
    	view(response)---在网页上打开返回的结果(如果能显示出来,说明是静态网页,能直接爬,如果没显示,说明是Ajax加载的网页)
    	response.xpath("")--用xpath解析网页
    9.解析网页的内容
    	scrapy parse http://www.baidu.com -c parse	---前面是parse方法,后面是callback调用解析的parse方法
    10.获取配置信息
    	scrapy settings --get MONGO_URL---获取配置信息
    11.运行spider文件
    	scrapy runspider myspider.py---直接运行myspider文件(参数是文件名称)
    12.输出版本
    	scrapy version
    	scrapy version -v---输出依赖库的版本
    13.测试
    	scrapy bench---测试爬行速度,反应当前运行性能
    

      

  • 相关阅读:
    fedora20安装hadoop-2.5.1
    超简单fedora20(linux)下JDK1.8的安装
    解决A program file was not specified in the launch configuration.问题
    java中的四则运算
    spring util命名空间
    java中常用的数据加密算法
    C语言实现栈
    百度ueditor富文本编辑器的使用
    C#进程管理程序实现
    ABP领域层-仓储
  • 原文地址:https://www.cnblogs.com/shuimohei/p/10495900.html
Copyright © 2011-2022 走看看