python 处理抓取网页乱码问题一招鲜 - 走看看

zoukankan html css js c++ java

python 处理抓取网页乱码问题一招鲜

FROM: http://my.oschina.net/012345678/blog/122355

相信用python的人一定在抓取网页时，被编码问题弄晕过一阵

前几天写了一个测试网页的小脚本，并查找是否包含指定的信息。

在html = urllib2.open(url).read() 时，打印到控制台始终出现乱码。

一般的解决办法就是html.decode('utf-8').encode('gb2312')，不过这个即使用了，也没能解决我的问题

这里有两个问题，第一个你要知道网页的编码格式是utf-8 第二你得确定你的系统是gb2312的，能不能主动获取网页的编码格式，并主动获取系统编码格式，像这样

网页编码 = 获取网页编码

系统编码 = 获取系统编码

html.decode(网页编码).encode(系统编码) 即使我不知道网页编码，系统编码，只要双方能转，就行。

网页编码 = re.complier('正则获取meta里的编码格式')

系统编码 = sys.getfilesystemencoding() ########关键的关键

html.decode(网页编码).encode(系统编码) 现在打印，一切正常了。我才不管系统什么编码，只要你能转。

查看全文

相关阅读:
1148: 零起点学算法55——打印所有低于平均分的分数
 1147: 零起点学算法54——Fibonacc
Netty源码分析第4章(pipeline)---->第3节: handler的删除
 Netty源码分析第4章(pipeline)---->第2节: handler的添加
 Netty源码分析第4章(pipeline)---->第1节: pipeline的创建
 Netty源码分析第3章(客户端接入流程)---->第5节: 监听读事件
 Netty源码分析第3章(客户端接入流程)---->第4节: NioSocketChannel注册到selector
Netty源码分析第3章(客户端接入流程)---->第3节: NioSocketChannel的创建
 Netty源码分析第3章(客户端接入流程)---->第2节: 处理接入事件之handle的创建
 Netty源码分析第3章(客户端接入流程)---->第1节: 初始化NioSockectChannelConfig

原文地址：https://www.cnblogs.com/wmx3ng/p/3497111.html

Copyright © 2011-2022 走看看