zoukankan      html  css  js  c++  java
  • 爬虫学习(七)——使用代理服务器进行数据爬取

    代理服务器:快代理,西刺代理,阿布云代理,芝麻代理

    1.使用代理的时候,可以直接使用浏览器设置就行了。
    三个点-》设置-》高级-》打开代理设置-》连接-》局域网设置->w为lan使用代理服务器->输入ip号和端口号即可
    2.使用代码进行模拟代理服务器的请求

    import urllib.request
    import random
    import time

    # 将代理读进来
    fp = open( "pool.txt", "r", encoding="utf8" )
    lt = fp.readlines()
    fp.close()
    # print(lt)

    url = "http://www.baidu.com/s?ie=UTF-8&wd=ip"
    # 从代理池中随便抽取一个
    while 1:
    proxy = random.choice( lt )
    proxy1 = proxy.rstrip( " " )
    print( proxy1 )

    daili = {"http": proxy1}
    #
    print( "现在使用的代理服务器是:%s" % proxy1 )

    handler = urllib.request.ProxyHandler( proxies=daili )

    opener = urllib.request.build_opener( handler )

    try:
    response = opener.open( url )
    print( "代理服务器%s使用成功" % proxy1 )
    with open( "daili1.html", "wb" ) as fp:
    fp.write( response.read() )
    break
    except Exception as e:
    print( "代理服务器%s使用失败" % proxy1 )
    lt.remove( proxy )
    time.sleep( 2 )
  • 相关阅读:
    MVC 下载相关
    中缀、前缀和后缀表达式
    什么是堆栈?
    为什么和其他语言相比C语言是快速的语言
    什么是回溯法?
    产生n bit所有可能的序列
    讨论汉诺塔之谜
    递归和内存分配(可视化)
    关于递归
    随机数产生函数的范围转换
  • 原文地址:https://www.cnblogs.com/kuangkuangduangduang/p/10370772.html
Copyright © 2011-2022 走看看