zoukankan      html  css  js  c++  java
  • linux配置爬虫环境

    #宝塔面板安装python3

    #安装依赖包
    yum -y groupinstall "Development tools"
    yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel
    #下载 Python3
    wget https://www.python.org/ftp/python/3.7.7/Python-3.7.7.tar.xz
    #创建文件夹
    mkdir /usr/local/python3 
    #解压编译安装
    tar -xvJf  Python-3.7.7.tar.xz
    cd Python-3.7.7
    ./configure --prefix=/usr/local/python3
    make && make install
    #给个软链
    ln -s /usr/local/python3/bin/python3 /usr/bin/python3
    ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3

    #安装Chrome

    sudo yum localinstall google-chrome-stable_current_x86_64.rpm
    

    #更换pip源

    -i https://pypi.tuna.tsinghua.edu.cn/simple/

    #下载并安装Chromedriver

    http://npm.taobao.org/mirrors/chromedriver/2.41/chromedriver_linux64.zip

    解压后上传到usr/bin目录下

    *可选:给予执行权限,

    chmod +x /usr/bin/chromedriver

    #安装phantomjs

     http://phantomjs.org/download.html官网下载文件,

    本地解压后文件夹重命名成 phantomjs,然后通过宝塔上传到服务器的 usr/local 目录,

    yum -y install fontconfig #安装依赖环境
    ln -s /usr/local/phantomjs/bin/phantomjs /usr/bin/  #建立软连接

     #报错:unknown error: DevToolsActivePort file doesn't exist

    Linux下使用root账户操作Chrome,需要增加一些设置

    from selenium.webdriver.chrome.options import Options
    from selenium import webdriver
    chrome_options = Options()
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--disable-dev-shm-usage') #让Chrome在root权限下跑
    chrome_options.add_argument('--headless') #不用打开图形界面
    browser = webdriver.Chrome(chrome_options=chrome_options)

     #报错:Max retries exceeded with url

    requests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数
    s = requests.session()
    s.keep_alive = False # 关闭多余连接
    s.get(url) # 你需要的网址

     #putty连接容易断开,命令执行中断

    可以使用screen

    yum install screen

    然后执行 -S [窗口名字] 就可以新建命令窗口,独立运行,客户端断开也不影响命令执行

    screen -S david

    再次连接上服务器,继续操作刚刚的窗口

    screen -ls #列出所有窗口
    screen -r 12865 #重新连接指定窗口
  • 相关阅读:
    STL————vector的用法
    DFS,DP————N皇后问题
    DP经典问题—————(LCIS)最长公共上升子序列
    DP————LIS(最长上升子序列)和LCS(最长公共子序列)问题
    CentOS7使用firewalld打开关闭防火墙与端口
    CentOS7下安装MySQL5.7安装与配置(YUM)
    nginx + tomcat +redis 负载均衡遇到问题集锦
    centos 7 安装 tomcat
    centos 7 设置防火墙 开放指定端口
    centos 7 通过yum 安装 nginx
  • 原文地址:https://www.cnblogs.com/newgold/p/13053009.html
Copyright © 2011-2022 走看看