zoukankan      html  css  js  c++  java
  • 用urllib2实现一个下载器的思路

    下载器的构造

    用urllib2实现下载器时从以下几个层面实现功能和灵活性:

    handler

    redirect, cookie, proxy

    动作

    timeout

    构造请求

    headers: ua, cookie, referer

    关于代理

    网上抓取的http代理可能存在以下问题:

    1. 频繁的服务器内部错误
    2. 已被目标服务器屏蔽
    3. 不转发请求,响应是固定的
    4. 响应不完整

    因此,对一个代理的可用性校验至少要考察状态码、数据长度、关键词三个方面。

    另外,当代理已通过上述校验,但其可靠性存疑时,如使用它开展爬虫作业,要小心状态码正常且有相当长度数据返回但返回数据实际不完整、不正确的情形,要在使用数据前进行必要的校验,如果数据无效,应将此信息反馈给下载器,以允许它将不可靠的代理从代理池中剔除。

    本文原创发表于http://www.cnblogs.com/qijj,转载请保留此声明。
  • 相关阅读:
    辗转相除法
    并查集(详)
    LCA 最近公共祖先
    RMQ ST表 静态区间最大值
    manacher
    题解 CF33B String Problem
    Linux 下对拍程序
    CSP 考试注意事项
    题解 P4688 [Ynoi2016]掉进兔子洞
    CSP 2020 游记
  • 原文地址:https://www.cnblogs.com/qijj/p/6163556.html
Copyright © 2011-2022 走看看