Python爬虫进阶——urllib模块使用案例【淘宝】 - 走看看

zoukankan html css js c++ java

Python爬虫进阶——urllib模块使用案例【淘宝】
很多时候呢，我们都是读取本地HTML文件来进行爬虫练手，但每次都要手打不同的HTML明显耗时耗力；
还有些小伙伴不喜欢F12，偏偏喜欢在Pycharm中查看HTML的源代码；
……

难道每次都只能“复制——新建——粘贴——保存”一条龙服务吗？
不不不，我们还有Python的第三方库——urllib。
urllib模块是模拟浏览器去访问URL地址，然后拿到服务器响应回来的数据，也就是整个HTML文件。

代码如下：
```
import urllib.request as ur

# urlopen返回的是一个HTTPResponse对象，需使用read方法。
ret = ur.urlopen('https://www.taobao.com/').read()
print(ret)
# 写入文件，'wb'为写入二进制文件
with open('tb.html', 'wb') as f:
    f.write(ret)
```
输出如下：

为我心爱的女孩~~
查看全文

相关阅读:
（一）MySQL中的常见查询
 PCI设备内存操作函数总结分类：浅谈PCI 2014-05-26 17:48 580人阅读评论(0) 收藏
 HI3531由DMA 发起PCIe 事务分类： HI3531 浅谈PCI-E windows驱动程序WDM 2014-05-23 11:48 930人阅读评论(0) 收藏
 hi3531的pcie atu资源重映射分类： HI3531 浅谈PCI-E 2014-05-21 09:17 695人阅读评论(0) 收藏
 如何访问pcie整个4k的配置空间分类：浅谈PCI-E 2014-05-17 15:13 858人阅读评论(0) 收藏
 hi3531的pcie控制器使能分类： HI3531 2014-05-15 18:01 698人阅读评论(0) 收藏
 hi3531 SDK 编译 kernel, 修改参数分类： arm-linux-Ubuntu HI3531 2014-05-07 11:23 1120人阅读评论(0) 收藏
 如何实现Linux下的U盘（USB Mass Storage）驱动分类： arm-linux-Ubuntu 2014-05-04 18:03 565人阅读评论(0) 收藏
 从VGA到GPU！细数二十年显卡发展历程分类：生活百科 2014-04-29 17:29 448人阅读评论(0) 收藏
 VxWorks中的中断应用设计要点分类： vxWorks 2014-04-29 17:25 494人阅读评论(0) 收藏

原文地址：https://www.cnblogs.com/WoLykos/p/12095181.html

Copyright © 2011-2022 走看看