zoukankan      html  css  js  c++  java
  • PySpider 爬虫系统

     PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。

    一、安装依赖库

    yum install gcc gcc-c++ -y
    yum install python-pip python-devel python-distribute libxml2 libxml2-devel python-lxml libxslt libxslt-devel openssl openssl-devel -y
    
    升级pip
    pip install --upgrade pip

    二、部署 mariadb,mysql 也可以

    安装 mariadb

    yum install mariadb-server mariadb -y
    
    启动 mariadb 服务 systemctl start mariadb

      2、设置mariadb  root 密码

    mysqladmin -u root password "mysql"
    mysql -u root -p

    MariaDB [mysql]> show databases;
    +--------------------+
    | Database |
    +--------------------+
    | information_schema |
    | mysql |
    | performance_schema |
    | test |
    +--------------------+
    7 rows in set (0.00 sec)

    
    

    MariaDB [mysql]>

    三、部署 redis

    1、下载安装包
    wget http://download.redis.io/redis-stable.tar.gz
    
    2、解压安装包 tar -xzvf redis-stable.tar.gz -C /usr/local/redis 3、编译安装 cd /usr/local/redis make make install
    4、redis 配置 设置配置文件路径 mkdir
    -p /etc/redis cp /usr/local/redis/redis.conf /etc/redis/redis.conf
    修改
    /etc/redis/redis.conf 文件的 daemonize 配置为yes : daemonize yes
    5、启动 redis 服务
    /usr/local/bin/redis-server /etc/redis/redis.conf

    四、部署 pyspider

    1、安装依赖
    pip install
    --upgrade chardet easy_install mysql-connector==2.1.3 easy_install redis easy_install jinja2

      2、安装 pyspider

    执行pyspider.conf.json会生成三个库

    1、安装 pyspider
    pip install pyspider
    2、配置 pyspider 工作目录 mkdir
    /etc/pyspider
    3、在 /etc/pyspider 下创建 pyspider.conf.json 文件; # cat /etc/pyspider/pyspider.conf.json
    {
    "taskdb": "mysql+taskdb://root:mysql@127.0.0.1:3306/taskdb", "projectdb": "mysql+projectdb://root:mysql@127.0.0.1:3306/projectdb", "resultdb": "mysql+resultdb://root:mysql@127.0.0.1:3306/resultdb", "message_queue": "redis://127.0.0.1:6379/db", "webui": { "username": "root", "password": "mysql", "need-auth": true } } 注:webui 是配置mysql的账户密码;http://ip:5000访问时候需要验证登陆;
    不设置直接将 need-auth 设为 false 也可以。

    五、启动服务

    pyspider -c /etc/pyspider/pyspider.conf.json
    
    nohup 后台启动
    nohup pyspider -c /etc/pyspider/pyspider.conf.json &

    或者:
    nohup pyspider >/dev/null 2>&1 &

    六、访问 http://IP:5000

    pyspider dashboard 

     Pyspider 开源地址:https://github.com/binux/pyspider

  • 相关阅读:
    I/O多路复用技术
    网络编程的异常及处理
    LINUX的signal
    网络编程小知识
    一个位压缩技巧
    加密技术[翻译]
    暴雪的hash算法[翻译]
    喜欢就好
    【PYTHON】编码是个细致活
    【Python3】POP3协议收邮件
  • 原文地址:https://www.cnblogs.com/sharesdk/p/9273902.html
Copyright © 2011-2022 走看看