zoukankan      html  css  js  c++  java
  • Python——爬虫2(Scrapy框架安装)

     一、Windows安装(Win10环境)

    1、装Python3.5(目前Pyhton最新版本是3.6)

        装Python2.7(由于Python2.7兼容性比较高,未来1~2年的趋势是3.x版本,为了避免出错,也可以先基于Python2.7来做)

    python-2.7.11.msi
    python-2.7.11.adm64.msi
    ==> 环境变量 C:python27   C:python27Script
    

    Python下载地址:

    https://www.python.org/downloads/

    2、装pip

    安装steuptools 
    https://bootstrap.pypa.io/ez_setup.py
    ez_setup.py
    
    python ez_setup.py
    
    pip(下载pip源码进行解压安装)
    https://pypi.python.org/packages/11/b6/abcb525026a4be042b486df43905d6893fb04f05aac21c32c638e939e447/pip-9.0.1.tar.gz#md5=35f01da33009719497f01a4ba69d63c9
    解压
    进入模块
    
    python setup.py install
    

    3、升级pip

    若已装过pip(可用IDE工具安装),且版本比较旧,需要先升级pip

    4、安装Twisted和lxml

    依赖模块:Twisted (Twisted基于Python2.7做的,所以对2.7兼容性比较好)

    下载Twisted和lxml安装包

    http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

    注:Ctrl+F查询Twisted和lxml即可

    Twisted-16.6.0-cp35-cp35m-win32.whl
    Twisted-16.6.0-cp35-cp35m-win_amd64.whl
    
    lxml‑3.7.2‑cp35‑cp35m‑win32.whl
    lxml‑3.7.2‑cp35‑cp35m‑win_amd64.whl

    注释:3.7.2是lxml版本,cp35表示python3.5,win32指的是Python而不是Windows的系统位数

     在cmd中使用pip工具,安装下载的whl包:

    pip install d:Twisted-16.6.0-cp35-cp35m-win_amd64.whl
    
    pip install d:lxml-3.7.2-cp35-cp35m-win_amd64.whl
    

    5、安装Scrapy

    pip install Scrapy
    

    如果需要的话,可安装如下模块

    pip install requests

    注:windows平台需要依赖pywin32,请根据自己系统32/64位选择下载安装,https://sourceforge.net/projects/pywin32/

    6、Windows依赖模块:pywin32

    错误

    Unhandled error in Deferred:
    

     解决:

    pip install win32api
    

     若运行出错未得到解决,请到如下地址下载对应版本安装即可。

    https://sourceforge.net/projects/pywin32/files/pywin32/Build%20220/

    若Python使用的是2.7,请注意安装如下依赖:

    VCForPython27.msi
    pywin32-220.win-amd64-py2.7.exe
    pypiwin32-219.win32-py2.7.exe
    
    lxml-2.3.win-amd64-py2.7.exe
    lxml-2.3.win32-py2.7.exe
    

    Python爬虫详细参考链接:http://www.cnblogs.com/wupeiqi/articles/5354900.html

    Scrapy安装参考链接:http://www.cnblogs.com/liu-yao/p/6166490.html

  • 相关阅读:
    01-发送你的第一个请求
    postman使用
    java poi导出多sheet页
    base64加密解密
    Django crontab
    super().__init__()
    paramiko模块
    列表转json数据返回
    socket模块判断ip加端口的连通性
    登录拦截器
  • 原文地址:https://www.cnblogs.com/yard/p/6340651.html
Copyright © 2011-2022 走看看