zoukankan      html  css  js  c++  java
  • 反爬虫2(代理ip)

    在进行爬虫访问时,被访问主机除了会校验访问身份,还会校验访问者的ip,

    当短时间同ip大量访问时,主机有可能会拒绝 返回,所以就现需要代理ip,

    百度中可以获取到大量的免费的代理ip(ps:注意在访问一些隐私的内容时尽量少用免费代理ip,而且部分代理ip是无法使用的)

    代理IP是使用方法如下:

    ,

    
    
    from urllib import request
    import random
    import re

    #反爬虫方法2
    #代理ip爬取
    proteslist=[
    {"http": "1.197.203.225:9999"},
    {"http": "1.197.203.225:9999"},
    {"http": "1.197.203.225:9999"},
    {"http": "1.197.203.225:9999"},
    ]
    protes=random.choice(proteslist)
    print(protes)


    #构建代理处理器对象
    protesHandler=request.ProxyHandler(protes)
    #构建opener
    opener=request.build_opener(protesHandler)
    url="https://www.cnblogs.com/yongqi-wang/p/python_pachong.html"
    header={
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}

    #创建模拟浏览器请求对象
    req=request.Request(url,headers=header)
    #发送请求
    res=opener.open(req)
    print(res.read())


     
  • 相关阅读:
    cenos安装memcache
    微信开发——测试号申请,接口配置,JS接口安全域名,自定义菜单
    mysql设计-优化
    mysql设计-基本操作
    CI框架部署后访问出现404
    ueditor的bug
    git操作
    github基本操作
    基于SSH协议clone GitHub远端仓库到本地-git
    Thinkphp5.0 路由
  • 原文地址:https://www.cnblogs.com/yongqi-wang/p/python_pachong.html
Copyright © 2011-2022 走看看