Urllib库的使用

zoukankan html css js c++ java

Urllib库的使用
我们首先了解一下 Urllib 库，它是 Python 内置的 HTTP 请求库，也就是说我们不需要额外安装即可使用，它包含四个模块：
- 第一个模块 request，它是最基本的 HTTP 请求模块，我们可以用它来模拟发送一请求，就像在浏览器里输入网址然后敲击回车一样，只需要给库方法传入 URL 还有额外的参数，就可以模拟实现这个过程了。
- 第二个 error 模块即异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作保证程序不会意外终止。
- 第三个 parse 模块是一个工具模块，提供了许多 URL 处理方法，比如拆分、解析、合并等等的方法。
- 第四个模块是 robotparser，主要是用来识别网站的 robots.txt 文件，然后判断哪些网站可以爬，哪些网站不可以爬的，其实用的比较少
使用 Urllib 的 request 模块我们可以方便地实现 Request 的发送并得到 Response，我们本节来看下它的具体用法。

1. urlopen()

urllib.request 模块提供了最基本的构造 HTTP 请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理authenticaton（授权验证），redirections（重定向)，cookies（浏览器Cookies）以及其它内容。

我们来感受一下它的强大之处，以 Python 官网为例，我们来把这个网页抓下来：
```
import urllib.request

response = urllib.request.urlopen('https://www.python.org')
print(response.read().decode('utf-8'))
```
查看全文

相关阅读:
Go语言和ASP.NET的一般处理程序在处理WEB请求时的速度比较
 XAML中特殊符号书写
 Sqlite执行insert or ignore 或insert or replace语句。
对于项目编译时自动使用代码混淆的方法。
Windows服务安装与控制
 PostgreSQL数据库中获取表主键名称
 开源框架
 RT/Metro商店应用如何调用SQLite数据库
 RT/Metro商店应用如何如何获取图片的宽高
 android中PreferenceScreen类的用法

原文地址：https://www.cnblogs.com/yizhixuepython/p/9264714.html

Urllib库的使用

1. urlopen()