1.环境搭建
yum update -y yum install gcc gcc-c++ -y yum install python-pip python-devel python-distribute libxml2 libxml2-devel python-lxml libxslt libxslt-devel openssl openssl-devel -y pip install --upgrade pip
2.部署MariaDB
yum install mariadb-server mariadb -y systemctl start mariadb mysqladmin -u root password "test" mysql -u root -p
3.部署Redis
wget http://download.redis.io/redis-stable.tar.gz tar -xzvf redis-stable.tar.gz mv redis-stable /usr/local/redis cd /usr/local/redis make make install mkdir -p /etc/redis cp /usr/local/redis/redis.conf /etc/redis/redis.conf 修改 /etc/redis/redis.conf 文件的 daemonize 配置项为如下: daemonize yes /usr/local/bin/redis-server /etc/redis/redis.conf pip install --upgrade chardet easy_install mysql-connector==2.1.3 easy_install redis pip install pyspider mkdir /etc/pyspider
然后 /etc/pyspider
目录下创建 pyspider.conf.json,参考下面的内容。
{ "taskdb": "mysql+taskdb://root:yIyyYemC@127.0.0.1:3306/taskdb", "projectdb": "mysql+projectdb://root:yIyyYemC@127.0.0.1:3306/projectdb", "resultdb": "mysql+resultdb://root:yIyyYemC@127.0.0.1:3306/resultdb", "message_queue": "redis://127.0.0.1:6379/db", "webui": { "username": "root", "password": "yIyyYemC", "need-auth": true } }
其中 mysql 配置中的
root
为您 mysql 的用户名, root:
后面的 yIyyYemC
为您刚设置的密码。webui
配置中的 username 及 password 为您访问 WebUI 时候需要的用户名,你也可以不设置用户名密码,直接将 need-auth
设为 false
即可。pyspider -c /etc/pyspider/pyspider.conf.json
nohup pyspider -c /etc/pyspider/pyspider.conf.json &
此时您可以访问 http://139.199.220.127:5000 使用您的爬虫来搜集数据了,具体 pyspider 爬虫脚本的编写及使用教程可以参考 网上资料。
注:此文参考腾讯云