zoukankan      html  css  js  c++  java
  • 爬虫-爬虫防屏蔽手段之代理服务器

    设置好代理headers = ('User-Agent',‘...’)后,
    使用opener = urllib.request.biuld_opener()对象
    设置好对象代理服务器:opener.addheader = [headers]
    然后必须设置全局代理:urllib.request.install_opener(opener)
    最后才能在urllib.request.urlopen(url).read().decode('urf-8','ignore')中使用,否则要报错
    什么是代理服务器:
    所谓代理服务器,是一个处于我们与互联网中间的服务器,如果使用代理 服务器,我们浏览信息的时候,先向代理服务器发出请求,然后由代理服务器向互联网获取信息,再返回给我们。
     
    使用代理服务器进行爬取网页实战:
    使用代理服务器进行信息爬取,可以很好的解决IP限制的问题。
    免费代理IP地址:www.xicidaili.com
    import urllib.request
    def use_proxy(url,proxy_addr):
    proxy = urllib.request.ProxyHandler({"http":proxy_addr})
    opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
    urllib.request.install_opener(opener)
    data = urllib.request.urlopen(url).read().decode("utf-8",'ignore')
    return data
    proxy_addr = ""112.85.169.100:9999""
    url = "http://baidu.com"
    data = use_proxy(url,proxy_addr)
    print(data)
  • 相关阅读:
    4.17 杂七杂八
    常量指针与指针常量
    作用域与命名空间
    QDataStream序列化的使用
    Qthread类的使用和控制台打印中文!
    Qproces的启动
    在centos7上安装部署hadoop2.7.3和spark2.0.0
    每天一点存储知识:集群Nas
    git 提交某个内容
    pyspider—爬取视频链接
  • 原文地址:https://www.cnblogs.com/zxzx1/p/10902995.html
Copyright © 2011-2022 走看看