Python爬虫1-----urllib模块 - 走看看

zoukankan html css js c++ java

Python爬虫1-----urllib模块
1、加载urllib模块的request
from urllib import request
2、相关函数：

（1）urlopen函数：读取网页
- webpage=request.urlopen(url，timeout=1) 【读取网页,参数timeout表示1秒之后为超时，遇到无效网页时可以跳过】
- data=webpage.read() 【读取页面内容】
　　【使用webpage.read()读取的页面内容text内容为bytes-object，打印内容为b’……‘】
- data=data.decode('utf-8') 【解码】
　　【text为bytes-object，将其转换为字符串text.decode()，默认参数为空，也可使用编码方式参数，格式为decode(“gb2312”)。】
- pat='<div class="name">(.*?)</div>'
　　res=re.compile(pat).findall(str(data))【记得str(data)】

　　【无法直接使用到re.search()，使用前需要转换为string类型。res就是获取的内容】

（2）urlretrieve函数：读取网页并可以保存在本地,成为本地网页
- urllib.request.urlretrieve( url , filename=" 本地文件地址//1.html" )
（3）urlcleanup()函数：使用urlretrieve函数会导致一些缓存，使用它可以清除。
- urllib.request.urlcleanup()
（4）info()函数：返回网页的一些信息。

（5）getcode()：若返回200表明爬取正常

（6）geturl（）：返回正在爬取的网页

（7）（可以查一下llib.request.Request函数）post和get请求
查看全文

相关阅读:
学习lua（一）认识了解lua
Lua For Windows 环境配置及使sciTE支持中文，使用editplus作为编辑工具
 Lua代码实例（）
Lau实例代码（二）
（转）Nios II的Boot过程分析（I）
Altera和Xilinx的参考设计资源
 （转）如何在FPGA设计环境中加时序约束
 （转）FPGA时序约束的几种方法
 (转)Nios ii设备管理分析
 （转）Nios II的Boot过程分析（II）

原文地址：https://www.cnblogs.com/Lee-yl/p/9010759.html

Copyright © 2011-2022 走看看