zoukankan      html  css  js  c++  java
  • Python爬虫2------爬虫屏蔽手段之代理服务器实战

     

     

    1、代理服务器:

    一个处于客户端与互联网中间的服务器,如果使用代理服务器,当我们浏览信息的时候,先向代理服务器发出请求,然后由代理服务器向互联网获取信息,再返回给我们。

    2、代码:

    import urllib.request
    #proxy_addr="117.36.103.170:8118",为代理服务器的IP和端口
    #url为要爬取数据的地址
    def use_proxy(url,proxy_addr):
        #采用ProxyHandler函数来设置代理服务器,函数参数为字典,字典的键为"http",值为代理服务器的IP地址,IP地址和端口可以在www.xicidaili.com中找。
        proxy=urllib.request.ProxyHandler({"http":proxy_addr})
        #建立opener,bulid_opener的第一个参数为proxy,第二个参数固定为urllib.request.HTTPHandler
        opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
        #将opener设置为全局,下面的操作就可以运用该opener了。
        urllib.request.install_opener(opener)
        data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
        return data
    
    proxy_addr="125.118.79.44:6666"
    url="http://www.baidu.com"
    data=use_proxy(url,proxy_addr)
    print(len(data))
  • 相关阅读:
    __init__ 构造行数的用法
    Android SDK下载安装及配置教程
    每条用例执行10次
    Python Json模块中dumps、loads、dump、load函数介绍
    Python接口测试实战2
    linux 下添加环境变量 和刷新
    mysql 练习题笔记
    http请求脚本排错指南
    docker命令及其常用事项
    anaconda 环境
  • 原文地址:https://www.cnblogs.com/Lee-yl/p/9045454.html
Copyright © 2011-2022 走看看