Python+requests 爬取网站遇到中文乱码怎么办？

zoukankan html css js c++ java

Python+requests 爬取网站遇到中文乱码怎么办？
分类： Python/Ruby

    最近刚开始使用python来做爬虫爬取相关数据，使用了python自带的urllib和第三方库requests，解析html使用了beautifulsoup以及lxml
    这里说下lxml，lxml是python的一个html、xml解析库，lxml使用XPath能快速，简单的定位元素并获取信息。下面进入正题

注：Python3处理乱码很好解决了

比如；requests.get(url).text.encode('utf8','ignore')

　　 requests.get(url).content.decode('gbk','ignore')

　　　或者pycharm编译器里编码设置成utf-8

1. 遇到的中文乱码问题
1.1 简单的开始
    使用requests来拔取网站内容十分方便，一个最简单的代码段只需要2-3行代码就行。

点击(此处)折叠或打开

url = 'http//www.pythonscraping.com/'

req = requests.get(url)

print(req.text)

tree = html.fromstring(req.text)

print(tree.xpath("//h1[@class='title']/text()"))

    上面的代码段起作用的也就3行（2,4,5）代码就获取到我们想要的内容。当然还要导入一系列的包，比如说requests、lxml、html等。当然由于http//www.pythonscraping.com/是英文网站，不存在中文乱码问题。
1.2 麻烦的开始
    本来当时的想法是写一些基础模块，方便之后开发的时候调用，减少重复性工作。为了保证代码在任何情况下都不会出现bug，所以想着用同样的代码爬取中文网站获取里面的文字
    修改上面代码中的两行代码：

点击(此处)折叠或打开

url = 'http://sports.sina.com.cn/g/premierleague/index.shtml'

print(tree.xpath("//span[@class='sec_blk_title']/text()"))

    运行程序可以发现，在语句print(req.text)输出的内容中，中文字体已经是乱码了。最后的结果输出是['?????©è§x86é?x91', '??x80?x9cx9f?x9bx9eé??']
2 乱码解决办法
2.1 试错
    由于之前爬取csdn上一个网页没有出现乱码问题，但是在sina体育网站上出现了乱码，所以当时以为不是编码问题，以为是文档压缩问题。因为csdn获取的页面header里没有“Content-Encodings”属性，但是sina体育获取的页面header有“Content-Encodings”属性--“Content-Encoding: gzip”。
    在网上查看了多个相关问题的解决方案：
    1. http://stackoverflow.com/questions/3122145/zlib-error-error-3-while-decompressing-incorrect-header-check
    2. http://blog.csdn.net/pxf1234567/article/details/42006697
    3. http://blog.csdn.net/bytxl/article/details/21278249

总结：参考上述文献，结果还是没有解决问题，但是就考虑是不是方向错了。不过这部分工作也没有白做，很多网站返回数据都会有压缩问题，之后的工作中也能用上。

2.2 乱码终极解决办法
    后来查阅官方文档中response-content相关内容，说明了Requests会自动解码来自服务器的内容。Requests会基于HTTP头部对响应的编码作出有根据的推测，前提是响应文档的HTTP headers里面没有相关字符集说明。官方文档还说明了，如果你创建了自己的编码，并使用codecs 模块进行注册，你就可以轻松地使用这个解码器名称作为 r.encoding 的值，然后由Requests来为你处理编码。（自己没有使用codecs模块，所以这里不贴代码了，不过按官方的说法使用codecs模块是最简单的一种方式。）
    另一份官方文档片段明确说了reponse编码处理方式：
        Requests遵循RFC标准，编码使用ISO-8859-1 。
        只有当HTTP头部不存在明确指定的字符集，并且 Content-Type 头部字段包含 text 值之时， Requests才不去猜测编码方式。

    现在直接上实验结果，在原始代码中添加以下代码片段：

点击(此处)折叠或打开

print(req.headers['content-type'])

print(req.encoding)

print(req.apparent_encoding)

print(requests.utils.get_encodings_from_content(page_content.text))

输出结果分别是：
    text/html
    ISO-8859-1#response内容的编码
    utf-8#response headers里设置的编码
    ['utf-8']#response返回的html header标签里设置的编码
    返回的内容是采用‘ISO-8859-1’，所以出现了乱码，而实际上我们应该采用‘utf-8’编码

    总结：当response编码是‘ISO-8859-1’，我们应该首先查找response header设置的编码；如果此编码不存在，查看返回的Html的header设置的编码，代码如下：

点击(此处)折叠或打开

if req.encoding == 'ISO-8859-1':

    encodings = requests.utils.get_encodings_from_content(req.text)

    if encodings:

        encoding = encodings[0]

    else:

        encoding = req.apparent_encoding

encode_content = req.content.decode(encoding, 'replace').encode('utf-8', 'replace')

    参考资料：
    1. http://blog.csdn.net/a491057947/article/details/47292923
    2. http://docs.python-requests.org/en/latest/user/quickstart/#response-content
查看全文

相关阅读:
【CodeForces】[659C]Tanya and Toys
【CodeForces】[659A]Round House
高并发网络编程之epoll详解
 Linux写时拷贝技术(copy-on-write)
5种服务器网络编程模型讲解
 5种服务器网络编程模型讲解
 当你输入一个网址的时候，实际会发生什么?
error: std::ios_base::ios_base(const std::ios_base&)’是私有的
 C++和JAVA的区别
 为什么内联函数，构造函数，静态成员函数不能为virtual函数

原文地址：https://www.cnblogs.com/GUIDAO/p/6679574.html

最新文章
CentOS7网络配置
 DATEDIFF 函数
 Eclipse 连接SQLServer数据库
 异常处理
 中文乱码详解
 Java IO流关闭问题的深入研究
 反射
 面向对象
 类
 方法（长期更新）