爬虫基础入门（一）

zoukankan html css js c++ java

爬虫基础入门（一）
- 1 URL含义
  URL的格式由三部分组成：
  ①第一部分是协议(或称为服务方式)。
  ②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
  ③第三部分是主机资源的具体地址，如目录和文件名等。
- 2 分析扒网页的方法
```
  response = urllib2.urlopen("http://www.baidu.com")
```
首先调用的是urllib2库里面的urlopen方法，传入一个URL，这个网址是百度首页，协议是HTTP协议，当然你也可以把HTTP换做FTP,FILE,HTTPS 等等，只是代表了一种访问控制协议，urlopen一般接受三个参数，它的参数如下：
```
 urlopen(url, data, timeout)
```
第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。
第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
第一个参数URL是必须要传送的，在这个例子里面我们传送了百度的URL，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。
```
print response.read()
```
response对象有一个read方法，可以返回获取到的网页内容。记得一定要加read方法，否则它不出来内容咯！
- 3 构造Requset
```
import urllib2
request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()
```
- 4 POST和GET数据传送
Urllib库的高级用法
- 1 设置Headers
- 2 Proxy（代理）的设置
- 3 Timeout 设置
- 4 使用 HTTP 的 PUT 和 DELETE 方法
  http协议有六种请求方法，get,head,put,delete,post,options
- 5 使用DebugLog
来自

Python爬虫入门四之Urllib库的高级用法
查看全文

相关阅读:
MongoDB笔记
 mysql笔记
 08-下载中间件
 ubuntu1804安装pycharm2018.3.x
02-CSS基础
 14-eval 函数
 13-文件
 12-模块和包
 11-异常
 有关dir和 unittest

原文地址：https://www.cnblogs.com/ulrica/p/9094399.html

爬虫基础入门（一）

来自