zoukankan html css js c++ java

python的httplib、urllib和urllib2的区别及用

慢慢的把它们总结一下，总结就是最好的学习方法

宗述

首先来看一下他们的区别

urllib和urllib2

urllib 和urllib2都是接受URL请求的相关模块，但是urllib2可以接受一个Request类的实例来设置URL请求的headers，urllib仅可以接受URL。

这意味着，你不可以伪装你的User Agent字符串等。

urllib提供urlencode方法用来GET查询字符串的产生，而urllib2没有。这是为何urllib常和urllib2一起使用的原因。

目前的大部分http请求都是通过urllib2来访问的

httplib

httplib实现了HTTP和HTTPS的客户端协议，一般不直接使用，在python更高层的封装模块中（urllib,urllib2）使用了它的http实现。

urllib简单用法

urllib.urlopen(url[, data[, proxies]]) :

[python] view plain copy

google = urllib.urlopen('http://www.google.com')  
print 'http header:/n', google.info()  
print 'http status:', google.getcode()  
print 'url:', google.geturl()  
for line in google: # 就像在操作本地文件  
    print line,  
google.close()

详细使用方法见

urllib学习

urllib2简单用法

最简单的形式

import urllib2  
   response=urllib2.urlopen('http://www.douban.com')  
   html=response.read()

实际步骤：

1、urllib2.Request()的功能是构造一个请求信息，返回的req就是一个构造好的请求

2、urllib2.urlopen()的功能是发送刚刚构造好的请求req，并返回一个文件类的对象response，包括了所有的返回信息。

3、通过response.read()可以读取到response里面的html，通过response.info()可以读到一些额外的信息。

如下：

#!/usr/bin/env python  
    import urllib2  
    req = urllib2.Request("http://www.douban.com")  
    response = urllib2.urlopen(req)  
    html = response.read()  
    print html

有时你会碰到，程序也对，但是服务器拒绝你的访问。这是为什么呢?问题出在请求中的头信息(header)。有的服务端有洁癖，不喜欢程序来触摸它。这个时候你需要将你的程序伪装成浏览器来发出请求。请求的方式就包含在header中。
常见的情形：

import urllib  
import urllib2  
url = 'http://www.someserver.com/cgi-bin/register.cgi'  
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'# 将user_agent写入头信息  
values = {'name' : 'who','password':'123456'}  
headers = { 'User-Agent' : user_agent }  
data = urllib.urlencode(values)  
req = urllib2.Request(url, data, headers)  
response = urllib2.urlopen(req)  
the_page = response.read()

values是post数据

GET方法

例如百度：

百度是通过http://www.baidu.com/s?wd=XXX 来进行查询的，这样我们需要将{‘wd’:’xxx’}这个字典进行urlencode

#coding:utf-8  
import urllib   
import urllib2    
url = 'http://www.baidu.com/s'   
values = {'wd':'D_in'}     
data = urllib.urlencode(values)  
print data   
url2 = url+'?'+data  
response = urllib2.urlopen(url2)    
the_page = response.read()   
print the_page

POST方法

import urllib  
import urllib2  
url = 'http://www.someserver.com/cgi-bin/register.cgi'  
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' //将user_agent写入头信息  
values = {'name' : 'who','password':'123456'}      //post数据  
headers = { 'User-Agent' : user_agent }  
data = urllib.urlencode(values)                   //对post数据进行url编码  
req = urllib2.Request(url, data, headers)  
response = urllib2.urlopen(req)  
the_page = response.read()

urllib2带cookie的使用

#coding:utf-8  
import urllib2,urllib  
import cookielib  
   
url = r'http://www.renren.com/ajaxLogin'  
   
#创建一个cj的cookie的容器  
cj = cookielib.CookieJar()  
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))  
#将要POST出去的数据进行编码  
data = urllib.urlencode({"email":email,"password":pass})  
r = opener.open(url,data)  
print cj

httplib简单用法

简单示例

#!/usr/bin/env python      
# -*- coding: utf-8 -*-      
import httplib    
import urllib    
    
def sendhttp():    
    data = urllib.urlencode({'@number': 12524, '@type': 'issue', '@action': 'show'})       
    headers = {"Content-type": "application/x-www-form-urlencoded",    
               "Accept": "text/plain"}    
    conn = httplib.HTTPConnection('bugs.python.org')    
    conn.request('POST', '/', data, headers)    
    httpres = conn.getresponse()    
    print httpres.status    
    print httpres.reason    
    print httpres.read()               
                  
if __name__ == '__main__':      
    sendhttp()

具体用法见

httplib模块

python 3.x中urllib库和urilib2库合并成了urllib库。其中、

首先你导入模块由

import urllib
import urllib2
变成了
import urllib.request

然后是urllib2中的方法使用变成了如下

urllib2.urlopen()变成了urllib.request.urlopen()
urllib2.Request()变成了urllib.request.Request() 

urllib2.URLError 变成了urllib.error.URLError

而当你想使用urllib 带数据的post请求时，

在python2中
urllib.urlencode(data)

而在python3中就变成了
urllib.parse.urlencode(data)

脚本使用举例：

python 2中

import urllib
import urllib2
import json
from config import settings
def url_request(self, action, url, **extra_data):    abs_url = "http://%s:%s/%s" % (settings.configs['Server'],
                                   settings.configs["ServerPort"],
                                   url)
    if action in ('get', 'GET'):
        print(abs_url, extra_data)
        try:
            req = urllib2.Request(abs_url)
            req_data = urllib2.urlopen(req, timeout=settings.configs['RequestTimeout'])
            callback = req_data.read()
            # print "-->server response:",callback
            return callback

        except urllib2.URLError as e:
            exit("33[31;1m%s33[0m" % e)
    elif action in ('post', 'POST'):
        # print(abs_url,extra_data['params'])
        try:
            data_encode = urllib.urlencode(extra_data['params'])
            req = urllib2.Request(url=abs_url, data=data_encode)
            res_data = urllib2.urlopen(req, timeout=settings.configs['RequestTimeout'])
            callback = res_data.read()
            callback = json.loads(callback)
            print("33[31;1m[%s]:[%s]33[0m response:
%s" % (action, abs_url, callback))
            return callback
        except Exception as e:
            print('---exec', e)
            exit("33[31;1m%s33[0m" % e)

python3.x中

import urllib.request
import json
from config import settings

def url_request(self, action, url, **extra_data):
    abs_url = 'http://%s:%s/%s/' % (settings.configs['ServerIp'], settings.configs['ServerPort'], url)
    if action in ('get', 'Get'): # get请求
        print(action, extra_data)try:
            req = urllib.request.Request(abs_url)
            req_data = urllib.request.urlopen(req, timeout=settings.configs['RequestTimeout'])
            callback = req_data.read()
            return callback
        except urllib.error.URLError as e:
            exit("33[31;1m%s33[0m" % e)
    elif action in ('post', 'POST'): # post数据到服务器端
        try:
            data_encode = urllib.parse.urlencode(extra_data['params'])
            req = urllib.request.Request(url=abs_url, data=data_encode)
            req_data = urllib.request.urlopen(req, timeout=settings.configs['RequestTimeout'])
            callback = req_data.read()
            callback = json.loads(callback.decode())
            return callback
        except urllib.request.URLError as e:
            print('---exec', e)
            exit("33[31;1m%s33[0m" % e)

settings配置如下：

configs = {
    'HostID': 2,
    "Server": "localhost",
    "ServerPort": 8000,
    "urls": {

        'get_configs': ['api/client/config', 'get'],  #acquire all the services will be monitored
        'service_report': ['api/client/service/report/', 'post'],

    },
    'RequestTimeout': 30,
    'ConfigUpdateInterval': 300,  # 5 mins as default

}

查看全文

相关阅读:
HDU 4460 Friend Chains 第37届ACM/ICPC杭州赛区题目（bfs求最短路，求两两之间最短路的最大值）
HDU 4445 Crazy Tank （简单物理题，枚举）
HDU 4433 locker 第37届ACM/ICPC 天津赛区现场赛C题（DP）
JQuery 3级级联,3级联动,3级连动
 C++异常处理
 C++ Template
学会用core dump调试程序错误(转)
C++命名规则
 vim实用配置(转)
GDB多进程调试(转)

原文地址：https://www.cnblogs.com/zhming26/p/6230124.html