zoukankan      html  css  js  c++  java
  • pyspider爬虫框架

    特点:

    去重处理,结果监控,多进程处理,pyquery提取,错误重试,webUI管理,代码简洁,JS渲染

    安装:

    anaconda里边没搜到pyspider,所以手动安装

    查看pyspider的命令:

    启动pyspider所有组件:

    在启动之前,要先安装phantomjs浏览器,因为pyspider组件中有phantomjs组件。

    下载地址:http://phantomjs.org/download.html。安装之后,配置环境变量(phantomjs.exe所在路径):

    之后,pyspider all命令开启pyspider所有组件:

    发现发生错误:

    ValueError: Invalid configuration:
    - Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.

    错误说,domaincontroller被弃用,建议用http_authenticator.domain_controller代替。

    原因是因为WsgiDAV发布了版本 pre-release 3.x。

    解决方法如下:

    在安装包中找到pyspider的资源包,然后找到webui文件里面的webdav.py文件打开,修改第209行即可。

    'domaincontroller': NeedAuthController(app),
    修改为:

    'http_authenticator':{
    'HTTPAuthenticator':NeedAuthController(app),
    },
    然后再执行pyspider all就能够通过http://localhost:5000打开页面了。

    (原文:https://blog.csdn.net/qq_37253540/article/details/88196994 )

    此时webui组件开启成功,在端口5000上,则在浏览器中输入http://localhost:5000打开pyspider的webui界面。

     

    点击create创建一个项目。之后,右边是编辑器,左边是请求的参数

  • 相关阅读:
    网站首页的设计
    短网址服务的构建
    分布式服务框架:Zookeeper
    Hadoop数据传输工具:Sqoop
    规则引擎简介
    HadoopDoctor:来自腾讯数据仓库TDW的MR诊断系统
    Hermes:来自腾讯的实时检索分析平台
    Mdrill:来自阿里的多维快速查询工具
    Saiku操作界面的简化
    Saiku OLAP
  • 原文地址:https://www.cnblogs.com/wisir/p/10587938.html
Copyright © 2011-2022 走看看