爬虫环境配置

zoukankan html css js c++ java

爬虫环境配置
爬虫环境配置
爬虫环境配置，主要安装爬虫所需要的软件以及包含库
    软件：
        Anaconda 库环境支持软件
        Python3
        Jupyter / jupyter lab pythonIDE
        Pycharm pythonIDE

    相关库安装：
        1 请求库向浏览器发送请求
        2 解析库解析服务器返回数据，查找，匹配，提取数据
        3 数据库存储爬取的数据
        4 存储库使用python支持存数据库的库实现对数据库的读写
        5 web库构建简单的web网络夫区，搭建api接口，供代理池使用
        6 爬虫框架大型的爬虫需要爬虫框架支持
        7 部署库用来将爬虫部署到多机，实现分布式爬虫
1请求库安装
1. requests请求库
pip install requests
第三方的请求库，用来向服务器发送数据，发起请求

    1.2selenium 自动化测试工具
        Pip install selenium
        Selenium 用来驱动浏览器执行模拟浏览的动作，模拟点击，下拉等。
        对于使用js渲染的页面可以有效的抓取

        验证安装是否成功：
            在python环境内 import selenium 无报错即可

    1.3chrome driver 驱动安装
        Selenium 自动化测试工具，可以模拟浏览器进行模拟人工的操作，因此需要可以模拟操作的浏览器，即google的chrome浏览器。
        但是，selenium不能直接驱动chrome进行模拟操作，因此需要安装配置单独的浏览器驱动来通过chromedriver驱动浏览器chrome
        在chrome官网下载自己的chrome对应版本的chromedriver，将单独的chromedriver.exe 文放置的爬虫环境的script文件夹中，该文件夹要包含在本机的环境变量中，
    淘宝镜像地址：http://npm.taobao.org/mirrors/chromedriver/
        验证安装：cmd中输入 chromedriver 有下列输出即可

        爬虫环境下：
        From selenium import webdriver
        Browser = webdriver.Chrome()
        出现chrome的空白弹窗即可
1.4phantomjs安装
Selenium在驱动浏览器的是时候会打开浏览器，加载慢不方便，因此需要一个无弹窗的后台模拟浏览器，加载数据，实现命令行的友好操作。
官网下载phantomjs http://phantomjs.org/download.html
官网文档：http://phantomjs.org/api/

下载后的bin文件夹中有phantomjs.exe文件，将该文件同样放置在爬虫环境中的script文件夹中（该路径要配置在环境变量中）
验证安装cmd中：phantomjs 无报错即可

1.5 aiohttp 异步请求库
    Request http 请求库是单步的请求库，每次只能发起一个请求并等待服务器回应，使用该库在大型的爬虫中会非常浪费时间以及资源。故此需要一个支持同时发起多个请求的请求库，aiohttp就可以实现异步请求。
    安装 pip install aiohttp
    验证: python环境下 import aiohttp 无报错即可
字符编码检测库： cchardet DNS解析加速库： aiodns
2解析库安装
解析库：发起请求完毕后，服务器会返回数据，要从返回的网页数据中提取数据就需要解析库。
提取信息方式：
正则匹配
解析信息方式：
Xpath 解析
Css 选择器解析
常用的解析库：
Beautifulsoup、，lxml、puquery

2.1 lxml 解析库安装
    Lxml解析库支持HTML解析，支持xpath解析，解析效率较高
    安装：
        Pip install lxml

2.2 beautifulsoup 解析库安装
    Beautifulsoup 库支持html和xml解析， =可以快捷的从网页中提取数据，有强大的api以及多种解析方式是
    ·安装：
        Pip install beautifulsoup4

2.3 pyquery 解析库安装
    Pyquery支持Jquery和HTML解析，支持CSS选择器，使用简单
    安装：
        Pip install pyquery

3 数据库软件安装
    安装不同类型的数据库，用来高效的存储爬取的数据
    主要的数据库包括：
        关系型数据库：mysql
        面向文档的非关系型数据库： mongodb
        非关系型key-value 数据库 redis

3.1 mysql安装
    官网下载mysql安装软件 https://dev.mysql.com/downloads/mysql/ 注意版本的对应
    安装参照其他详细教程
    注意：
        安装的时候基本上一路next，注意安装workbench 用来对数据库可视化交互
        安装的过程中本地的mysql服务会创建密码，要记住密码
    验证安装：
        在电脑的服务中会有mysql57服务，证明安装成功

    保证该服务是自动启动运行的状态。
3.2 mongodb 安装
    官网下载mongofb4.0
    现在要求注册以才能下载安装文件，因此要先在官网注册账户，安装的时候一路next设置密码即可
    验证安装;
            在服务中会有mondb的服务正在运行表示安装成功

3.3 redis 安装
    在redis的guithub下载安装源文件即可
    https ://github.com.uglide/RedisDesktopManager/releases 一路next即可
    验证安装：
        在服务中同样有redis服务表示安装成功


    安装redis desktop 可视化管理工具，用来管理redis数据库
    在github 搜索redis desktop 选择第一个uglide/RedisDesktopManager 在他的release 发行版本中选择稳定的版本按章，一路next即可。
    安装完成后配置本地连接;

测试成功即可
4 python 交互存储库安装
    安装完成数据库以后，python和数据库交互的时候需要相关的库支持
    包括;
        Pymysql 库
        PyMongo 库
        Redis-py 库

    4.1 以上支持库的安装 pip install 库名即可
    4.2 安装redisdump
        Redisdump 用于redis的数据导入导出工具基于ruby实现，需要安装ruby
        Rubyinstaller下载地址https://rubyinstaller.org/downloads/ 下载完成后根据提示配置基础运行环境
        配置完成后在ruby控制台运行 gem install redis-dump
        安装完成后运行redis-dump 以及redis-load 无报错即可

5 web库安装
    在爬虫中使用web库搭建API接口，配合redis数据库搭建代理池，通过API 接口拿到代理，简单快捷
    主要的web库包括;
        Flask: 轻量级web支持库利用flask+redis搭建代理池
        当然也可以快捷购买代理
        安装;
            pip install flask

        Tornado 支持异步请求的web框架，效率高
        安装：
            Pip install tornado

        这两个web框架，二选一即可

6 app爬取库安装
    为了抓取app的数据，需要app支持库来加载app页面

    6.1 抓包工具 Charles 安装
        要加载app中的页面数据，需要获取数据，app的数据的请求一般是通过服务器的专用请求接口来实现的，需要抓包工具来抓取数据，为了实现规模化的自动采集，同样需要自动化测试版工具来实现对手机中app自动化操作，主要的app自动化控制操作工具有appium 和国产的airtest

        Charles安装：
        官网地址; https://www.charlesproxy.com/download/
        Charles需要付费
        Charles激活：
```
    Registered Name:https://zhile.io
```
License Key: 48891cf209c6d32bf4

        安装完成以后需要配置证书



Charles教程; https://www.jianshu.com/p/fa351db39b5c
    手机需要和电脑连接在同一个局域网下，并且配置手机为Charles代理

    6.2 appium 自动化测试工具安装
    使用appium软件可以通过python代码实现对你手机的自动化的点击，滑动等动作的操作，模拟人的对手机的操作。
    Appium 官网下载：
    使用app抓取数据需要安卓环境的支持，配置android sdk环境
    安装andriod studio 在Androidstudio中安装sdk
    Sdk环境配置：

7 爬虫框架安装
    在爬取工作量不大的时候可以使用request以及selenium库爬取就可以满足需求。
    而大型的大量数据的爬取需要简化流程的爬虫框架的支持，只需要关心爬虫的逻辑不用关心爬虫的具体的模块功能的实现。简化代码。
    主要的流行爬虫框架包括：
        1 Pyspider 具有UI，脚本编辑器，任务控制器，项目管理器，结果处理器。支持多种数据库，多种消息队列，支持JS渲染页面爬取使用简单方便
        2 scrapy 依赖库较多，功能强大，安装麻烦，需要提前安装支持库

    7.1 pyspider 框架安装
        安装 pip install pyspider
            或者 anacond安装， conda install pyspider
        验证安装： cmd pyspider all
        输出如下;

7.2 scrapy 框架安装
        Scrip 是个强大的框架，但是依赖的python库比较多，因此安装之前需要提前安装很多的支持库。因此建议使用anaconda安装的方式。Anaconda会自动安装scrapy所需要的支持库。
        Anaconda安装 conda install scrapy

    7.3 scrapy-splash Javascript支持渲染工具安装
        Scrapy-splash 是 javascript的渲染工具
        Scrapy-splash的安装分为连个部分：splash服务，以及scrapy-splash的python库安装。
        Splash服务通过docker安装，安装完成后会启动splash服务，通过它的接口，实现javascript页面加载。
        Scrapy-splash python库安装通过pip安装，安装完成后在scrapy中使用splash服务。

8 Docker安装
Docker的容器技术用来部署爬虫，通过ddocker将爬虫的环境和应用打包，然后再在主机上使用docker部署即可运行新的爬虫
在docker官网下载，docker desktop 安装直接一路next。然后配置docker镜像源，由于访问国外的镜像速度很慢，因此需要配置国内的镜像来加速下载。
    使用docker来打包和部署爬虫很方便。
查看全文

相关阅读:
HUE配置HBase
HUE配置HIVE
HUE配置hadoop
HUE的安装
 CM (Cloudera Manager) 的安装，便于CDH的离线部署
 MapReduce -- 最短路径
 Mapreduce -- PageRank
CentOS 建立本地yum源服务器
 js移动设备手机跳转地址代码
 离线存储

原文地址：https://www.cnblogs.com/binyang/p/10989530.html

爬虫环境配置

爬虫环境配置，主要安装爬虫所需要的软件以及包含库

1请求库安装

requests请求库

1.2selenium 自动化测试工具

1.3chrome driver 驱动安装

1.4phantomjs安装

1.5 aiohttp 异步请求库

2解析库安装

2.1 lxml 解析库安装

2.2 beautifulsoup 解析库安装

2.3 pyquery 解析库安装

3 数据库软件安装

3.1 mysql安装

3.2 mongodb 安装

3.3 redis 安装

4 python 交互存储库安装

4.1 以上支持库的安装 pip install 库名 即可

4.2 安装redisdump

5 web库安装

6 app爬取库安装

6.1 抓包工具 Charles 安装

6.2 appium 自动化测试工具安装

7 爬虫框架安装

7.1 pyspider 框架安装

7.2 scrapy 框架安装

7.3 scrapy-splash Javascript支持渲染工具安装

8 Docker安装

4.1 以上支持库的安装 pip install 库名即可