zoukankan      html  css  js  c++  java
  • 爬虫——Scrapy命令行常用操作(转)

    原文链接:https://www.cnblogs.com/shuimohei/p/10495900.html

    1.mysql数据库
    2.mongoDB数据库
    3.redis数据库
     
     
    1.创建项目
        scrapy startproject myproject
        cd myproject
     
    2.创建爬虫
        scrapy genspider myspider www.baidu.com
        scrapy genspider -t crawl myspider www.baidu.com----创建有rules配置
     
    3.运行爬虫
        scrapy crawl myspider
     
    4.错误检查
        scrapy check ----检查爬虫的语法错误
     
    5.列出爬虫
        scrapy list --返回项目里spider名称
    6.测试网页
        scrapy fetch www.baidu.com
        scrapy fetch --nolog www.baidu.com ----不会生成日志
        scrapy fetch --nolog --headers www.baidu.com    --输出headers
        scrapy fetch --nolog --no-redirect---不会重定向
    7.请求网页 把网页源代码保存成文件,在用浏览器打开(调试工具)
        scrapy view http://www.baidu.com
     
    8.命令行交互模式shell
        scrapy shell http://www.baidu.com
        request---请求的网页
        response--请求网页的返回结果
        response.text请求结果
        response.headers--headers
        view(response)---在网页上打开返回的结果(如果能显示出来,说明是静态网页,能直接爬,如果没显示,说明是Ajax加载的网页)
        response.xpath("")--用xpath解析网页
    9.解析网页的内容
        scrapy parse http://www.baidu.com -c parse  ---前面是parse方法,后面是callback调用解析的parse方法
    10.获取配置信息
        scrapy settings --get MONGO_URL---获取配置信息
    11.运行spider文件
        scrapy runspider myspider.py---直接运行myspider文件(参数是文件名称)
    12.输出版本
        scrapy version
        scrapy version -v---输出依赖库的版本
    13.测试
        scrapy bench---测试爬行速度,反应当前运行性能
    终日不为以思,无益,不如学也
  • 相关阅读:
    window 7/8/10 安装nginx
    全面了解 Nginx 到底能做什么
    MySQL优化
    office 2013 破解工具 及 软件下载
    centos6+如何对外开放80,3306端口号或者其他端口号
    CentOS 中查看软件的版本号
    CentOS 中安装 mysql 5.7+
    STL入门大全(待编辑)
    Feign
    微信公众号
  • 原文地址:https://www.cnblogs.com/lymlike/p/11598508.html
Copyright © 2011-2022 走看看