zoukankan html css js c++ java

Urllib.request 抓取网页html

语法 urllib.request.urlopen

意思就是打开 url

# 导入urllib
import urllib.request

# 打开url
response = urllib.request.urlopen('https://movie.douban.com/', None, 10)
# 读取返回的内容
html = response.read().decode('utf-8')
# 写入txt
with open('html','w',encoding='utf-8') as f:
    f.write(html)

就是打开一个网页，并保存下来，读取信息，进行解码操作后，写入txt

但是弹出了错误：urllib.error.HTTPError: HTTP Error 418:

解决方法：

在url中加入头部

用fiddler工具抓包。找到headers包。获取他的请求头

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36

代码如下：

# 导入urllib
import urllib.request
# 定义一个头部
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36'}
# 给url加头部
_url = urllib.request.Request('https://movie.douban.com/',headers=headers)
# 打开url
response = urllib.request.urlopen(_url, None, 10)
# 读取返回的内容
html = response.read().decode('utf-8')
# 写入txt
with open('html','w',encoding='utf-8') as f:
    f.write(html)

查看全文

相关阅读:
hibernate的缓存机制
 [poj 3159]Candies[差分约束详解][朴素的考虑法]
POJ 2773 Happy 2006
给定一个循环链表，实现一个算法返回这个环的开始结点
 使用jQuery创建模态窗口登陆效果
 实战数据结构(3)_两个单链表间的合并操作
 sql的强大功能（看一条sql解决的复杂业务）
uva 10905 Children's Game (排序）
JFinal学习 & Gradle配置续 & Tomcat配置
 Gradle项目学习 & HttpAsyncClient学习 & CountDownLatch学习

原文地址：https://www.cnblogs.com/lijunlin-py/p/14916351.html