zoukankan      html  css  js  c++  java
  • 爬虫——Scrapy命令行常用操作(转)

    原文链接:https://www.cnblogs.com/shuimohei/p/10495900.html

    1.mysql数据库
    2.mongoDB数据库
    3.redis数据库
     
     
    1.创建项目
        scrapy startproject myproject
        cd myproject
     
    2.创建爬虫
        scrapy genspider myspider www.baidu.com
        scrapy genspider -t crawl myspider www.baidu.com----创建有rules配置
     
    3.运行爬虫
        scrapy crawl myspider
     
    4.错误检查
        scrapy check ----检查爬虫的语法错误
     
    5.列出爬虫
        scrapy list --返回项目里spider名称
    6.测试网页
        scrapy fetch www.baidu.com
        scrapy fetch --nolog www.baidu.com ----不会生成日志
        scrapy fetch --nolog --headers www.baidu.com    --输出headers
        scrapy fetch --nolog --no-redirect---不会重定向
    7.请求网页 把网页源代码保存成文件,在用浏览器打开(调试工具)
        scrapy view http://www.baidu.com
     
    8.命令行交互模式shell
        scrapy shell http://www.baidu.com
        request---请求的网页
        response--请求网页的返回结果
        response.text请求结果
        response.headers--headers
        view(response)---在网页上打开返回的结果(如果能显示出来,说明是静态网页,能直接爬,如果没显示,说明是Ajax加载的网页)
        response.xpath("")--用xpath解析网页
    9.解析网页的内容
        scrapy parse http://www.baidu.com -c parse  ---前面是parse方法,后面是callback调用解析的parse方法
    10.获取配置信息
        scrapy settings --get MONGO_URL---获取配置信息
    11.运行spider文件
        scrapy runspider myspider.py---直接运行myspider文件(参数是文件名称)
    12.输出版本
        scrapy version
        scrapy version -v---输出依赖库的版本
    13.测试
        scrapy bench---测试爬行速度,反应当前运行性能
    终日不为以思,无益,不如学也
  • 相关阅读:
    wifi热点
    【WIN7】windowssystem32 下的几乎所有文件的简单说明【2】
    clipbrd剪切板查看器
    【WIN7】windowssystem32 下的几乎所有文件的简单说明【1】
    Host
    ReadyBoost
    在U盘上安装Damn Small Linux
    readonly、disabled、display、visible的区别
    VS2010中安装AjaxControlToolkit
    读取文件夹列表、删除文件夹及文件夹中的内容
  • 原文地址:https://www.cnblogs.com/lymlike/p/11598508.html
Copyright © 2011-2022 走看看