zoukankan      html  css  js  c++  java
  • 利用scrapy-client发布爬虫的远程服务器

    一.环境准备

      远程服务器必须装有scapyd,我们使用的机器必须有scrapy-client(我这里是windows),并确保这两者正常安装并启动。

    二.客户端准备上传

      首先进入到爬虫项目的根文件夹:

    scrapyd-deploy

      

     这样就是成功了。

    三.配置爬虫项目 

      打开爬虫项目中的scrapy.cfg文件,这个文件就是给scrapyd-deploy使用的
    将url这行代码解掉注释,并且给设置你的部署名称

      再次执行scrapyd-deploy -l 启动服务,可以看到设置的名称

    四.打包项目

      1.开始打包前,执行命令:scrapy list,这个命令执行成功说明可以打包了,如果没执行成功说明还有工作没完成

      

      这边会显示的是我的爬虫项目中具有的爬虫名称:jd

      2.执行打包命令: scrapyd-deploy 部署名称 -p 项目名称
        如下显示表示scrapy项目打包成功

        如果出现
    在这里插入图片描述
        版本不对,建议安装pip install scrapyd==1.1.1,直到你的egg文件夹中有项目即可

        

      3.上传运行爬虫

    curl http://远程ip:6800/schedule.json -d project=项目名称 -d spider=爬虫名称

      执行后,如果出现

      则爬虫运行成功
      可以去网页中106.12.112.139::6800查看爬虫运行状态

      到此为止,scrapyd部署已经完成了,但是如果我们想要控制爬虫是很难的,下面几个命令是控制爬虫的进程,不妨试一试。

    五.管理 

      停止爬虫

    curl http://localhost:6800/cancel.json -d project=scrapy项目名称 -d job=运行ID

      删除scrapy项目
      注意:一般删除scrapy项目,需要先执行命令停止项目下在远行的爬虫

    curl http://localhost:6800/delproject.json -d project=scrapy项目名称

      查看有多少个scrapy项目在api中

    curl http://localhost:6800/listprojects.json

      查看指定的scrapy项目中有多少个爬虫

    curl http://localhost:6800/listspiders.json?project=scrapy项目名称

      

      总结几个请求url,通过在浏览器输入,也可以监控爬虫进程。

    1、获取状态
    http://127.0.0.1:6800/daemonstatus.json
    2、获取项目列表
    http://127.0.0.1:6800/listprojects.json
    3、获取项目下已发布的爬虫列表
    http://127.0.0.1:6800/listspiders.json?project=myproject
    4、获取项目下已发布的爬虫版本列表
    http://127.0.0.1:6800/listversions.json?project=myproject
    5、获取爬虫运行状态
    http://127.0.0.1:6800/listjobs.json?project=myproject
    6、启动服务器上某一爬虫(必须是已发布到服务器的爬虫)
    http://127.0.0.1:6800/schedule.json (post方式,data={“project”:myproject,“spider”:myspider})
    7、删除某一版本爬虫
    http://127.0.0.1:6800/delversion.json
    (post方式,data={“project”:myproject,“version”:myversion})
    8、删除某一工程,包括该工程下的各版本爬虫
    http://127.0.0.1:6800/delproject.json(post方式,data={“project”:myproject})

      这样输入命令是不是很繁琐,命令太多不容易记,命令输入错误,得不到想要的结果,你在学习中是否遇到这种问题,因此,gerapy就诞生了,这个工具可以让你的工作更加便捷、高效(不推荐在工作中使用此工具)

    注意:如出现如下错误:

      回退版本

      Scrapy==1.6.0 Twisted==18.9.0

  • 相关阅读:
    Two strings CodeForces
    Dasha and Photos CodeForces
    Largest Beautiful Number CodeForces
    Timetable CodeForces
    Financiers Game CodeForces
    AC日记——整理药名 openjudge 1.7 15
    AC日记——大小写字母互换 openjudge 1.7 14
    AC日记——将字符串中的小写字母换成大写字母 openjudge 1.7 13
    AC日记——加密的病历单 openjudge 1.7 12
    AC日记——潜伏着 openjudge 1.7 11
  • 原文地址:https://www.cnblogs.com/tjp40922/p/10777315.html
Copyright © 2011-2022 走看看