python 处理抓取网页乱码 - 走看看

zoukankan html css js c++ java

python 处理抓取网页乱码

python 处理抓取网页乱码问题一招鲜

相信用python的人一定在抓取网页时，被编码问题弄晕过一阵

前几天写了一个测试网页的小脚本，并查找是否包含指定的信息。

在html = urllib2.open(url).read() 时，打印到控制台始终出现乱码。

一般的解决办法就是html.decode('utf-8').encode('gb2312')，不过这个即使用了，也没能解决我的问题

这里有两个问题，第一个你要知道网页的编码格式是utf-8 第二你得确定你的系统是gb2312的，能不能主动获取网页的编码格式，并主动获取系统编码格式，像这样

网页编码 = 获取网页编码

系统编码 = 获取系统编码

html.decode(网页编码).encode(系统编码) 即使我不知道网页编码，系统编码，只要双方能转，就行。

网页编码 = re.complier('正则获取meta里的编码格式')

系统编码 = sys.getfilesystemencoding() ########关键的关键

html.decode(网页编码).encode(系统编码) 现在打印，一切正常了。我才不管系统什么编码，只要你能转。

查看全文

相关阅读:
简单的验证码；在一个数组中随即打印出4个不重复的字母
 数据类型
 java语法基础
 mac 开机运行脚本
 【mac】搭建java环境
 mac 复制文件到NTFS格式的移动硬盘
 JAVA学习日报 8.19
JAVA学习日报 8.20
（VI）事务：Spring 事务管理
 （VI）事务：Spring 事务细节

原文地址：https://www.cnblogs.com/shijiaoyun/p/4460040.html

热门文章
每日作业报告
 每日作业报告
 每日作业报告
 每日作业报告
 每日作业报告
 每日作业报告
 每日作业报告
 每日作业报告
 每日作业报告
 配置环境变量

Copyright © 2011-2022 走看看