zoukankan      html  css  js  c++  java
  • linux chrome 安装过程记录

    最近,由于公司需要做爬虫抓取一些新闻,在开发过程中,发现有些网站有一定的反爬措施,通过浏览器访问一切正常,通过其他方式,包括:curl,urlconnection 等,就算加入了cookie,agent等参数也不能完全正常访问,导致爬取失败。

    经过网上查找资料,找到解决方案,

    对于这种特殊的网站,爬取方式改为通过程序在服务器端打开浏览器,访问地址,然后解析入库。

    过程中需要用到chrome浏览器和chromedriver来实现

    其中,chrome浏览器支持无界面访问网站,chromedriver,提供java,python,php等语言调用chrome的能力。

    现将安装过程记录如下(基于centos6.5,centos7.2 亲测成功):

    一、安装chrome

    1. 下载安装脚本,

    在下载目录中,执行以下命令,将安装脚本下载到本地

    wget https://intoli.com/install-google-chrome.sh

    2.然后授予可执行权限

    chmod 755 ./install-google-chrome.sh

    3.执行脚本

    ./install-google-chrome.sh

    安装脚本会自动下载、安装chrome(合适的版本),并且目前两个系统中,所缺少的依赖,都会被安装。

    4.测试安装结果

    执行命令,  google-chrome-stable --no-sandbox --headless --disable-gpu --screenshot https://www.baidu.com/

    如果在当前文件夹中出现screenshot.png  则安装成功

    二、安装chromedriver

    1.切换到 chrome安装路径 (个人习惯,实际上在什么目录都可以)

    cd /opt/google/

    2.下载文件包

    wget https://npm.taobao.org/mirrors/chromedriver/75.0.3770.90/chromedriver_linux64.zip

    3.解压文件包

    unzip chromedriver_linux64.zip

    解压后,在/opt/google/ 会多出一个文件chromedriver

    4.连接文件

    ln -s /opt/google/chromedriver /usr/bin/chromedriver

    执行以上命令后,安装成功

     如果文件下载失败,可以下载传上服务器

    地址是

    https://files.cnblogs.com/files/suntray/install-google-chrome.sh.zip   (安装脚本)

    https://files.cnblogs.com/files/suntray/chromedriver_linux64.zip          (驱动文件)

  • 相关阅读:
    Python标准库 -- UUID模块(生成唯一标识)
    Python全局解释器锁 -- GIL
    Python Web Server Gateway Interface -- WSGI
    Mysql 和 Postgresql 抛开性能的对比
    一篇文章掌握RequireJS常用知识
    彻底理解js中的闭包
    全面理解Javascript闭包和闭包的几种写法及用途【转】
    JS 日期转换,格式化等常用的函数定义
    把上传过来的多张图片拼接转为PDF的实现代码
    C# Stream 和 byte[] 之间的转换(文件流的应用)
  • 原文地址:https://www.cnblogs.com/suntray/p/11136363.html
Copyright © 2011-2022 走看看