zoukankan      html  css  js  c++  java
  • Scrapyd发布爬虫的工具

    Scrapyd

    Scrapyd是部署和运行Scrapy.spider的应用程序。它使您能够使用JSON API部署(上传)您的项目并控制其spider。

    Scrapyd-client

    Scrapyd-client是一个专门用来发布scrapy爬虫的工具,安装该程序之后会自动在python目录scripts安装一个名为scrapyd-deploy的工具
    (其实打开该文件,可以发现它是一个类似setup.py的python脚本,所以可以通过python scrapyd-deploy的方式运行)

    下载安装



    pip install scrapyd-client
    pip install enum-compat
    pip install w3lib
    pip install scrapyd

    安装完成后检查

    C:Program FilesPython36Scripts>dir sc*
     驱动器 C 中的卷是 BOOTCAMP
     卷的序列号是 D471-4F4D
     
     C:Program FilesPython36Scripts 的目录
     
    2018/05/07  21:20            98,158 scrapy.exe
    2018/05/25  21:17             9,901 scrapyd-deploy
    2018/05/25  20:37            98,165 scrapyd.exe
                   4 个文件        216,128 字节
                   0 个目录 39,937,785,856 可用字节

    scrapyd-deploy内容

     

    运行方法

    1.运行scrapyd

    C:>scrapyd
    2018-05-25T20:38:52+0800 [-] Loading c:program filespython36libsite-packages
    scrapyd	xapp.py...
    2018-05-25T20:38:54+0800 [-] Scrapyd web console available at http://127.0.0.1:6
    800/
    2018-05-25T20:38:54+0800 [-] Loaded.
    2018-05-25T20:38:54+0800 [twisted.application.app.AppLogger#info] twistd 18.4.0
    (c:program filespython36python.exe 3.6.1) starting up.
    2018-05-25T20:38:54+0800 [twisted.application.app.AppLogger#info] reactor class:
     twisted.internet.selectreactor.SelectReactor.
    2018-05-25T20:38:54+0800 [-] Site starting on 6800
    2018-05-25T20:38:54+0800 [twisted.web.server.Site#info] Starting factory <twiste
    d.web.server.Site object at 0x0000000004BB8DA0>
    2018-05-25T20:38:54+0800 [Launcher] Scrapyd 1.2.0 started: max_proc=32, runner='
    scrapyd.runner'

    2.拷贝scrapyd-deploy工具到爬虫目录下

     C:chinaarea 的目录
    
    2018/05/25  21:19    <DIR>          .
    2018/05/25  21:19    <DIR>          ..
    2018/05/24  21:23    <DIR>          .idea
    2018/05/25  21:19    <DIR>          build
    2018/05/25  21:16    <DIR>          chinaarea
    2018/05/25  21:19    <DIR>          project.egg-info
    2018/05/23  20:38                74 README.md
    2018/05/25  21:02               264 scrapy.cfg
    2018/05/25  20:37             9,904 scrapyd-deploy
    2018/05/25  21:19               266 setup.py
                   4 个文件         10,508 字节
                   6 个目录 39,973,642,240 可用字节

    3.修改爬虫的scapy.cfg文件

    首先去掉url前的注释符号,这里url就是你的scrapyd服务器的网址。

    其次,deploy:100表示把爬虫发布到名为100的爬虫服务器上。

    这个名叫target名字可以随意起,一般情况用在需要同时发布爬虫到多个目标服务器时,可以通过指定名字的方式发布到指定服务器。

    其次,default=ccpmess.settings 中 ccpmess也是可以改的,貌似没啥用,默认还是用工程名字。

    关键是scrapyd-deploy 所在目录,具体其实可以读下scrapyd-deploy 的代码。


    # Automatically created by: scrapy startproject
    #
    # For more information about the [deploy] section see:
    # https://scrapyd.readthedocs.io/en/latest/deploy.html
    
    [settings]
    default = chinaarea.settings
    
    [deploy:100]
    url = http://localhost:6800/
    project = chinaarea

    4.查看配置

    检查scrapy配置是否正确。

    $python scrapyd-deploy -l
    100                  http://localhost:6800/

    5.发布爬虫

    C:chinaarea>python scrapyd-deploy 100 -p chinaarea --version ver20180525
    Packing version ver20180525
    Deploying to project "chinaarea" in http://localhost:6800/addversion.json
    Server response (200):
    {"node_name": "jingjing-PC", "status": "ok", "project": "chinaarea", "version":
    "ver20180525", "spiders": 1}
    image

    6.下载安装curl

    下载地址:https://curl.haxx.se/download.html

    根据电脑系统下载适合的版本

     
    image

    下载完成后会看到curl.exe文件

     
    image

    设置环境变量

     
    image

    测试配置


    C:curlin>curl localhost:6800
    
    <html>
    <head><title>Scrapyd</title></head>
    <body>
    <h1>Scrapyd</h1>
    <p>Available projects: <b>chinaarea</b></p>
    <ul>
    <li><a href="/jobs">Jobs</a></li>
    
    <li><a href="/logs/">Logs</a></li>

    7.启动scrapyd服务器上myproject工程下的myspider爬虫

    C:curlin>curl http://localhost:6800/schedule.json -d project=chinaarea -d spider=airs
    {"node_name": "jingjing-PC", "status": "ok", "jobid": "5895b858603611e8b3e160f81
    dad89ef"}
    image
     
    image
     
    image

    8.删除scrapyd服务器上myproject工程

    C:curlin>curl http://127.0.0.1:6800/delproject.json -d project=chinaarea
    {"node_name": "jingjing-PC", "status": "ok"}

    9.其他操作API

    # -*- coding: utf-8 -*-
    
    import requests
    import json 
    
    baseUrl ='http://127.0.0.1:6800/'
    daemUrl ='http://127.0.0.1:6800/daemonstatus.json'
    listproUrl ='http://127.0.0.1:6800/listprojects.json'
    listspdUrl ='http://127.0.0.1:6800/listspiders.json?project=%s'
    listspdvUrl= 'http://127.0.0.1:6800/listversions.json?project=%s'
    listjobUrl ='http://127.0.0.1:6800/listjobs.json?project=%s'
    delspdvUrl= 'http://127.0.0.1:6800/delversion.json'
    
    #http://127.0.0.1:6800/daemonstatus.json
    #查看scrapyd服务器运行状态
    r= requests.get(daemUrl)
    print '1.stats :
     %s 
    
    '  %r.text  
    
    #http://127.0.0.1:6800/listprojects.json
    #获取scrapyd服务器上已经发布的工程列表
    r= requests.get(listproUrl)
    print '1.1.listprojects : [%s]
    
    '  %r.text
    if len(json.loads(r.text)["projects"])>0 :
        project = json.loads(r.text)["projects"][0]
    
    #http://127.0.0.1:6800/listspiders.json?project=myproject
    #获取scrapyd服务器上名为myproject的工程下的爬虫清单
    listspd=listspd % project
    r= requests.get(listspdUrl)
    print '2.listspiders : [%s]
    
    '  %r.text 
    if json.loads(r.text).has_key("spiders")>0 :
        spider =json.loads(r.text)["spiders"][0]
    
    
    #http://127.0.0.1:6800/listversions.json?project=myproject
    ##获取scrapyd服务器上名为myproject的工程下的各爬虫的版本
    listspdvUrl=listspdvUrl % project
    r = requests.get(listspdvUrl)
    print '3.listversions : [%s]
    
    '  %rtext 
    if len(json.loads(r.text)["versions"])>0 :
        version = json.loads(r.text)["versions"][0]
    
    #http://127.0.0.1:6800/listjobs.json?project=myproject
    #获取scrapyd服务器上的所有任务清单,包括已结束,正在运行的,准备启动的。
    listjobUrl=listjobUrl % proName
    r=requests.get(listjobUrl)
    print '4.listjobs : [%s]
    
    '  %r.text 
    
    
    #schedule.json
    #http://127.0.0.1:6800/schedule.json -d project=myproject -d spider=myspider
    #启动scrapyd服务器上myproject工程下的myspider爬虫,使myspider立刻开始运行,注意必须以post方式
    schUrl = baseurl + 'schedule.json'
    dictdata ={ "project":project,"spider":spider}
    r= reqeusts.post(schUrl, json= dictdata)
    print '5.1.delversion : [%s]
    
    '  %r.text 
    
    
    #http://127.0.0.1:6800/delversion.json -d project=myproject -d version=r99'
    #删除scrapyd服务器上myproject的工程下的版本名为version的爬虫,注意必须以post方式
    delverUrl = baseurl + 'delversion.json'
    dictdata={"project":project ,"version": version }
    r= reqeusts.post(delverUrl, json= dictdata)
    print '6.1.delversion : [%s]
    
    '  %r.text 
    
    #http://127.0.0.1:6800/delproject.json -d project=myproject
    #删除scrapyd服务器上myproject工程,注意该命令会自动删除该工程下所有的spider,注意必须以post方式
    delProUrl = baseurl + 'delproject.json'
    dictdata={"project":project  }
    r= reqeusts.post(delverUrl, json= dictdata)
    print '6.2.delproject : [%s]
    
    '  %r.text 

    10.总结

    1、获取状态
    http://127.0.0.1:6800/daemonstatus.json
    2、获取项目列表
    http://127.0.0.1:6800/listprojects.json
    3、获取项目下已发布的爬虫列表
    http://127.0.0.1:6800/listspiders.json?project=myproject
    4、获取项目下已发布的爬虫版本列表
    http://127.0.0.1:6800/listversions.json?project=myproject
    5、获取爬虫运行状态
    http://127.0.0.1:6800/listjobs.json?project=myproject
    6、启动服务器上某一爬虫(必须是已发布到服务器的爬虫)
    http://localhost:6800/schedule.json (post方式,data={"project":myproject,"spider":myspider})
    7、删除某一版本爬虫
    http://127.0.0.1:6800/delversion.json (post方式,data={"project":myproject,"version":myversion})
    8、删除某一工程,包括该工程下的各版本爬虫   
    http://127.0.0.1:6800/delproject.json(post方式,data={"project":myproject})

    scrapyd服务器管理爬虫,至少有以下几个优势:
    1、可以避免爬虫源码被看到。
    2、有版本控制。
    3、可以远程启动、停止、删除,正是因为这一点,所以scrapyd也是分布式爬虫的解决方案之一

     
     

    欢迎关注公众号:Python爬虫数据分析挖掘,回复【开源源码】免费获取更多开源项目源码

    公众号每日更新python知识和【免费】工具

     
    耐得住寂寞,才能登得顶
    Gitee码云:https://gitee.com/lyc96/projects
  • 相关阅读:
    实践是检验真理的唯一标准——《精益创业实战》让你的成功飞起来
    蛇年谈程序员发展之路
    蛇年,你使用Python语言编程了吗?
    由《30天自制操作系统》引发的漫画创作
    《七周七语言:理解多种编程范型》书评整理
    精益创业实战
    一本为程序员量身打造的面试逻辑题宝典——《程序员面试逻辑题解析》
    从1.5k到18k, 一个程序员的5年成长之路
    Comparator and Comparable及Collections and Collection的用法和区别
    线程同步
  • 原文地址:https://www.cnblogs.com/chenlove/p/13666294.html
Copyright © 2011-2022 走看看