包括 网页请求、响应获取、代理和cookie设置、异常处理、URL解析 等功能的Python模块
源代码: Lib/urllib/
urllib
是一个收集了多个用到 URL 的模块的包:
-
urllib.request
打开和读取 URL -
urllib.error
包含urllib.request
抛出的异常 -
urllib.parse
用于解析 URL -
urllib.robotparser
用于解析robots.txt
文件
urllib.request
urllib.request.
urlopen
(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
url:打开统一资源定位地址 url,可以是一个字符串或一个 Request
对象。
data:发送到响应服务器的其他数据的对象(eg:POST方式的数据包),默认为None
timeout:以 秒 为单位,用于超时连接的断开操作,只适用于HTTP、HTTPS、FTP连接。
cafile:包含CA证书的单个文件
capath:hash后的证书文件的目录路径
context:描述各种SSL选项的ssl.SSLContext实例
urllib.request.install_opener(opener)
将OpenerDirector
实例安装为默认的全局启动器。
urllib.request.
build_opener
([handler, ...])
返回一个OpenerDirector
实例,该实例按给定的顺序链接处理程序。handler可以是的实例,也可以是的BaseHandler
子类BaseHandler
(在这种情况下,必须可以不带任何参数地调用构造函数)。
urllib.request.
pathname2url
(path)
将路径名路径从路径的本地语法转换为URL的路径组件中使用的形式。
urllib.request.
url2pathname
(path)
将路径组件路径从百分比编码的URL 转换为路径的本地语法。
urllib.request.
getproxies
()
此辅助函数将方案字典返回到代理服务器URL映射。
class urllib.request.
Request
(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
url 是一个含有一个有效的统一资源定位地址的字符串。
- class
urllib.request.
OpenerDirector
-
本
OpenerDirector
类打开通过URLBaseHandler
链接在一起。它管理处理程序的链接以及从错误中恢复。
- class
urllib.request.
BaseHandler
-
这是所有注册处理程序的基类---并且仅处理简单的注册机制。
- class
urllib.request.
HTTPDefaultErrorHandler
-
定义HTTP错误响应的默认处理程序的类;所有的回应都变成了
HTTPError
例外。
- class
urllib.request.
HTTPRedirectHandler
-
一个用于处理重定向的类。
- class
urllib.request.
HTTPCookieProcessor
(cookiejar=None) -
一个用于处理 HTTP Cookies 的类。
- class
urllib.request.
ProxyHandler
(proxies=None)
使请求通过代理。如果给出了代理,则它必须是将协议名称映射到代理URL的字典。
参考资料: