UnicodeDecodeError: 'gbk' codec can't decode byte 0xd0 in position 13345: illegal multibyte sequence - 走看看

zoukankan html css js c++ java

UnicodeDecodeError: 'gbk' codec can't decode byte 0xd0 in position 13345: illegal multibyte sequence
1 import requests 2 3 headers = { 4 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36' 5 } 6 url = "https://www.dytt8.net/html/gndy/dyzz/list_23_2.html" 7 response = requests.get(url, headers=headers) 8 text = response.content.decode(encoding='gbk') 9 print(text)
运行报错,

查看页面是有无法识别的内容

百度试过更换编码gb18030,可是还是会报错.

最后找到了解决的方法,在decode方法中有errors参数

如下:
```
text = response.content.decode(encoding='gbk', errors='ignore')
```
程序就不报错正常执行了.

百度中找到个方法打开网页：F12 在console输入document.charset 查看编码方式

当然,其实在这个程序中不需要提取这些内容,直接使用response.text()也可以.
查看全文

相关阅读:
read、write 与recv、send区别 gethostname
网络粘包问题解决办法
 C++中 =default 和 =delete 使用
 c++ unordered_map 自定义key
c++ list的坑
 c++ vector 的坑
 对于RBAC与shiro的一些思考
 求两个数的最大公约数&求N个数的最大公约数
 Nginx是什么？有什么用？
如何做可靠的分布式锁，Redlock真的可行么

原文地址：https://www.cnblogs.com/weiwei2016/p/10400618.html

Copyright © 2011-2022 走看看