zoukankan      html  css  js  c++  java
  • scrapdy部署爬虫项目

    原文:https://blog.csdn.net/JLaiRen/article/details/82902321

    scrapyd安装

    打开命令行工具输入
    命令:pip install scrapyd

    ##启动scrapyd服务

    在浏览器中输入127.0.0.1:6800
    如图启动成功

    (4).找到你的爬虫项目进入到拥有scrapy.cfg文件的目录下
    如图:

    进入命令行输入命令:pip install scrapyd-client
    如图就成功了:

    (9).到这里就已经成功了可以去127.0.0.1:6800 查看运行状态

    部署

    • 通过scrapyd来部署
    • 部署,切换到你的scrapy项目根目录,python c:Python27Scriptsscrapyd-deploy localhost -p projectname
    • 调度,curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername
    • scrapyd执行频率
    • 开机启动
    • 访问安全

    (10).常规操作:
    停止爬虫
    curl http://localhost:6800/cancel.json -d project=scrapy项目名称 -d job=运行ID

    删除scrapy项目
    注意:一般删除scrapy项目,需要先执行命令停止项目下在远行的爬虫
    curl http://localhost:6800/delproject.json -d project=scrapy项目名称

    查看有多少个scrapy项目在api中
    curl http://localhost:6800/listprojects.json

    查看指定的scrapy项目中有多少个爬虫
    curl http://localhost:6800/listspiders.json?project=scrapy项目名称

    总结几个请求url
    1、获取状态
    http://127.0.0.1:6800/daemonstatus.json
    2、获取项目列表
    http://127.0.0.1:6800/listprojects.json
    3、获取项目下已发布的爬虫列表
    http://127.0.0.1:6800/listspiders.json?project=myproject
    4、获取项目下已发布的爬虫版本列表
    http://127.0.0.1:6800/listversions.json?project=myproject
    5、获取爬虫运行状态
    http://127.0.0.1:6800/listjobs.json?project=myproject
    6、启动服务器上某一爬虫(必须是已发布到服务器的爬虫)
    http://127.0.0.1:6800/schedule.json (post方式,data={“project”:myproject,“spider”:myspider})
    7、删除某一版本爬虫
    http://127.0.0.1:6800/delversion.json
    (post方式,data={“project”:myproject,“version”:myversion})
    8、删除某一工程,包括该工程下的各版本爬虫
    http://127.0.0.1:6800/delproject.json(post方式,data={“project”:myproject})

    部署参考文章:

    原文:https://www.kancloud.cn/lorne/standard/738625?sss

    目录

    Scrapy

    重新安装了一下python,pip就已经包含在内了

    遇到的问题

    • pip install Scrpay报一堆错误,实质原因是Twisted安装失败了,找到一篇文章解决了,先下载文件,然后本地直接安装。
    • 运行爬虫时Twisted在python3.7下有bug,卸载了python3.7,安装了一个低版本的3.6.6,再安装Twisted一帆风顺。
    • No module named 'win32api',安装pip install pypiwin32
    • 最终结果出来:scrapy crawl itcast -o teachers.json -s FEED_EXPORT_ENCODING=utf-8
    • 成果--取cnblogs近期用户,https://gist.github.com/lonlie/547870d1c09946dada53e771131b583e

    Python相关

    • cmd中如需换行在行尾加

    部署

    • 通过scrapyd来部署
    • 部署,切换到你的scrapy项目根目录,python c:Python27Scriptsscrapyd-deploy localhost -p projectname
    • 调度,curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername
    • scrapyd执行频率
    • 开机启动
    • 访问安全

    参考资料

  • 相关阅读:
    CSP 模拟17
    晚测7
    CSP 模拟16
    CSP 模拟14
    CSP 模拟13
    Cypress系列(67)- 环境变量设置指南
    Cypress系列(66)- 测试运行最佳实践
    Cypress系列(65)- 测试运行失败自动重试
    Cypress系列(64)- 数据驱动策略
    Cypress系列(63)- 使用 Custom Commands
  • 原文地址:https://www.cnblogs.com/xudj/p/10196661.html
Copyright © 2011-2022 走看看