zoukankan      html  css  js  c++  java
  • Mac os 下 python爬虫相关的库和软件的安装

      由于最近正在放暑假,所以就自己开始学习python中有关爬虫的技术,因为发现其中需要安装许多库与软件所以就在这里记录一下以避免大家在安装时遇到一些不必要的坑。

    一. 相关软件的安装:

      1. homebrew:

         homebrew 是mac os系统下的包管理器由于功能齐全所以在这里比较推荐大家安装,安装及使用教程在我的另一篇博客中,在此附上链接 homebrew的安装

       2. anaconda:anaconda是python下的包管理器,支持创建虚拟环境等功能,个人认为比自带的pip好用,安装anaconda可以前往其官网,链接如下:

          https://www.continuum.io/downloads,选择python3版本的安装包下载即可。

    二. 请求库的安装

        requests:由于requests是第三方库,所以需要手动安装,安装过程如下。

        1 .相关链接

           Github:https://github.com/requests/requests

           PyPi:https://pypi.python.org/pypi/requests

           官方文档:http://www.python-requests.org

           中文文档:http://docs.python-requests.org/zh_CN/latest

        2. 安装库,我们使用conda指令进行安装,在终端中输入如下指令即可成功安装requests库

    conda install requests

          

        Selenium:是一个自动化的测试工具,利用它可以驱动浏览器执行特定的动作,如过页面的数据通过JavaScript动态加载则需要使用到它,其安装过程如下。

        1. 相关链接

          官方网站:http://www.selenium.org

          Github:https://github.com/seleniumHQ/selenium/tree/master/py

          PyPi:https://pypi.python.org/pypi/selenium

          官方文档:http://selenium-python.readthdocs.io

          中文文档:http://selenium-python-zh.readthedocs.io

        2. 安装库,我们同样使用 conda指令进行安装,在终端中输入如下指令即可安装selenium库

    conda install selenium

        

        ChromeDriver:应为selenium需要浏览器配合使用,那么如果默认使用的是chrome浏览器,则需要安装chromeDrvier驱动(版本需要与你使用的chrome的版本兼容),其安装过程如下。

        1. 相关链接

           官方网站:http://sites.google.com/a/chromium.org/chromedriver

           下载地址:  http://chromedriver.storage.googleapis.com/index.html

        2. 安装chromedriver,由于我们安装了homebrew包管理器,我们就可以直接使用brew指令进行安装,在终端中输入下列代码即可进行安装chromedriver了

    brew cask install chromedriver

         3. 安装好后,我们可以在程序中进行测试,代码如下

    from selenium import webdriver
    
    browser = webdriver.Chrome()

              若能正确弹出空白的chrome浏览器,则证明配置没有问题啦!

    三. 解析库安装

       lxml:是python的一个解析库,用于解析html和xml并且对xpath表达式提供了支持,是一个很基础的解析库,安装方式如下。

       1. 相关链接

          官方网站:http://lxml.de

          Github:https://github.com/lxml/lxml

          PyPI:https://pypi.python.org/pypi/lxml

        2.我们使用conda指令进行安装,只需在终端中输入以下代码安装即可

    conda install lxml

         BeautifulSoup:你没看错,它叫美丽汤,它可以解析html和xml并支持多种方式操作网页中的标签和属性,非常强大的解析库并且官方文档也很友好,安装方式如下。

         1. 相关链接

            官方文档:https://www.cremmy.com/software/BeautifulSoup/bs4/doc

            中文文档:https://www.cremmy.com/software/BeautifulSoup/bs4/doc.zh

         2. 我们依旧使用conda指令进行安装,在终端中输入如下代码安装即可

    conda install beautifulsoup4

         3. 安装好后,我们可以在程序中测试它的解析功能,代码如下

    from urllib.request import urlopen
    from bs4 import BeautifulSoup
    
    if __name__ == "__main__":
        html = urlopen("http://www.cnblogs.com")   #urlopen 获取html页面
        bs_obj = BeautifulSoup(html)               #BeauitfulSoup解析后返回
        print(bs_obj.get_text)                     #返回除标签外的纯文本

       

        PyQuery:也是解析工具,提供与jquery(几年前非常火热的JavaScript框架)类似的语法解析html同样也支持css选择器,安装方式如下。

        1. 相关链接

           Github:https://github.com/gawel/pyquery

           PyPI:https://pypi.python.org/pypi/pyquery

           官方文档:http://pyquery.readthedocs.io

        2. 我们仍然使用conda指令安装,但同时也可以使用pip3指令安装,在终端输入如下代码中的一个安装即可

    #使用 conda安装
    conda install pyquery
    #使用 pip3安装
    pip3 install pyquery

      

        tesserocr:可以用来识别验证码或者图片的OCR(光学字符识别)解析库,它是对python API的封装,所以安装它需要先安装tesseract,它们的安装方式如下

        1. 相关链接

           tesserocr Github:https://github.com/sirfz/tesserocr

           tesserocr PyPI:https://pypi.python.org/pypi/tesserocr

           tesseract 下载地址:http://digi.bib.uni-mannheim.de/tesserocr

           tesseract Github:https://github.com/tesseract-ocr/tesseract

           tesseract 语言包:https://github.com/tesseract-oct/tessdata

           tesseract 文档:https://github.com/tesseract-ocr/tesseract/wiki/Documentation

        2. 我们现需要使用brew指令安装ImageMagick和tesseract库,然后再使用conda指令安装tesserocr库,在终端中按次序输入以下代码即可

    # 安装ImageMagick
    brew install imagemagick
    # 安装 tesseract
    brew install tesseract --all-languages
    # 安装 tesserocr
    conda install tesserocr

       3. 安装好后,我们可以在程序中测试它是否能正确运行,代码如下

    import tesserocr
    from PTL import Image
    
    image = Image.open('example.jpeg')
    print(tesserocr.image_to_text(image)) #将图片中的文字转换为字符串

    好了至此,与python爬虫相关的基础库已经安装完成了,本文中并未涉及scrapy库的安装。因为个人认为还是先不要使用框架自己编写爬虫更能提升自己的编码能力,谢谢大家的阅读!

  • 相关阅读:
    day37 多路复用IO模型之select select,poll,epoll 异步IO 数据库基本概念 配置文件管理
    day36 协程介绍/yield实现协程/补充/gevent模块/网络IO模型介绍/阻塞IO模型/非阻塞IO模型
    day35 GIL介绍 cpython解释器的垃圾回收机制 GIL与自定义互斥锁 多进程vs多线程 线程queue 进程池与线程池
    day34 线程介绍/开启线程的两种方式/进程vs线程/线程对象其他相关属性或方法/互斥锁/死锁现象与递归锁/信号量
    day33 守护进程、互斥锁、进程间通信、生产者消费者模型part1、生产者消费者模型part2、生产者消费者模型part3
    day 32 进程理论/开启子进程的两种方式/僵尸进程与孤儿进程/进程间内存空间隔离/join操作/进程对象其他相关属性或方法
    day31 基于udp协议套接字通信 udp协议通信循环原理分析 udp协议没有粘包问题/基于socketserver模块实现并发的套接字(tcp) 基于socketserver模块实现并发的套接字(udp) 进程的简单介绍 操作系统的功能介绍 操作系统的发展史
    day30 模拟ssh远程执行命令/解决粘包执行问题/粘包终极解决方案/tcp的优化算法以及粘包问题分析
    Unity3D游戏开发之MatchTarget实现角色攀爬效果
    javase学习第九天(抽象类与接口)
  • 原文地址:https://www.cnblogs.com/maoqifansBlog/p/11440173.html
Copyright © 2011-2022 走看看