zoukankan      html  css  js  c++  java
  • Python爬虫学习笔记1:request、selenium、ChromeDrive、GeckoDriver等相关依赖安装

    系列学习笔记参考:python3网络爬虫开发实战

    requests

    # pip install requests
    import requests
    

    selenium

    Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等 操作 。 对于一些 JavaScript谊染的页面来说,这种抓取方式非常有效.

    # pip install selenium
    import selenium
    

    ChromDriver

    点击 Chrome菜单“帮助”→“关于 GoogleChrome”,即可查看 Chrome 的版本号.

    在网站:http://chromedriver.chromium.org/downloads下载对应版本的文件,下载后解压文件到/usr/bin 里面

    解决方法参考:https://www.cnblogs.com/silentdoer/p/8946946.html,感觉挺靠谱,不过我本机上没成功,没敢在捣鼓

    尝试其他方式:

    将当前可执行文件放在/usr/local/chromedriver 目录下(没有就自己新建一个),接下来可以修改~/.profile文件, 

    export PATH=” $PATH:/usr/local/chromedriver" 保存后执行如下命令:

    touch ~/.profile

     配置完成后,就可以在命令行下直接执行 chromedriver命令了:

    chromedriver 

    在python编辑器上执行

    from selenium import webdriver
    browser = webdriver.Chrome() 

    闪退,报错,提示版本对不上(之前装过73版本的,在/usr/bin路径上),需要把该路径上的文件删除了。

    解决方法,修改/usr/bin 下面的权限,参考:https://www.jianshu.com/p/c658973eb122,修改后重启,记得修改回来,修改回来脚本:csrutil enable

    替换掉旧的就可以了

    GeckoDriver 

    Firefox来说, 也可以使用同样的方式完成 Selenium的对接,这时需要安装另一个驱动GeckoDriver

    下载地址:https://github.com/mozilla/geckodriver/releases

    步骤和上面一样,也是修改/usr/bin 的权限

    from selenium import webdriver
    brower = webdriver.Firefox()
    

    PhantomJS

    PhantomJS是一个无界面的、可脚本编程的 WebKit浏览器引擎,它原生支持多种 Web标准: DOM操作、 css选择器、 JSON、 Canvas以及 SVG。

    Selenium支持 PhantomJS,这样在运行的时候就不会再弹出 一个浏览器了

     

    不过鉴于目前selenium不在支持PhantomJS,这里不在进行安装。

    相关新闻查看:http://www.sohu.com/a/224999034_100122143

     pyquery

    pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文梢, 支 持 css选择器。

    pip install pyquery

    tesserocr

    在 Mac下,我们首先使用 Homebrew安装 ImageMagick和 tesseract库 :

    brew install imagemagick
    brew install tesseract --all-languages

    接下来再安装 tesserocr即可: pip3 install tesserocr pillow

    这样我们便完成了 tesserocr的安装

    在用homebrew 安装的时候如果遇到update brew,解决方式参考:https://learnku.com/articles/18908

    安装好后,试验下下面的图片,图片地址:

    https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png

    到图片路径下面,执行:

    tesseract image.png result -l eng && cat result.txt 

    结果:

    嗷嗷

  • 相关阅读:
    HDU 1160 FatMouse's Speed ——(DP)
    HDU 1114 Piggy-Bank ——(完全背包)
    poj 1458 Common Subsequence ——(LCS)
    HDU 1087 Super Jumping! Jumping! Jumping! ——(LIS变形)
    HDU 1257 最少拦截系统 ——(LIS)
    strrchr函数
    常用位操作
    Map中放置类指针并实现调用
    log4net 一分钟上手
    简单易懂的冒泡排序
  • 原文地址:https://www.cnblogs.com/zheng1076/p/11121561.html
Copyright © 2011-2022 走看看