zoukankan html css js c++ java

爬虫学习（七）——使用代理服务器进行数据爬取

代理服务器：快代理，西刺代理，阿布云代理，芝麻代理

1.使用代理的时候，可以直接使用浏览器设置就行了。
三个点-》设置-》高级-》打开代理设置-》连接-》局域网设置->w为lan使用代理服务器->输入ip号和端口号即可
2.使用代码进行模拟代理服务器的请求

import urllib.request
import random
import time

# 将代理读进来
fp = open( "pool.txt", "r", encoding="utf8" )
lt = fp.readlines()
fp.close()
# print(lt)

url = "http://www.baidu.com/s?ie=UTF-8&wd=ip"
# 从代理池中随便抽取一个
while 1:
    proxy = random.choice( lt )
    proxy1 = proxy.rstrip( "
" )
    print( proxy1 )

    daili = {"http": proxy1}
    #
    print( "现在使用的代理服务器是:%s" % proxy1 )

    handler = urllib.request.ProxyHandler( proxies=daili )

    opener = urllib.request.build_opener( handler )

    try:
        response = opener.open( url )
        print( "代理服务器%s使用成功" % proxy1 )
        with open( "daili1.html", "wb" ) as fp:
            fp.write( response.read() )
        break
    except Exception as e:
        print( "代理服务器%s使用失败" % proxy1 )
        lt.remove( proxy )
    time.sleep( 2 )

查看全文

相关阅读:
Prim算法的3个版本
 [转]"undefined reference to" 问题解决方法
 C/C++ 读写 Excel
Poj 3468
关于PS中矩形工具的学习
 PS初学习
 java第二天学习。
Java学习第一天
 二叉树的线索化
 struct files_struct

原文地址：https://www.cnblogs.com/kuangkuangduangduang/p/10370772.html