爬虫中文乱码繁体字乱码问题解决 - 走看看

zoukankan html css js c++ java

爬虫中文乱码繁体字乱码问题解决

工作需要爬取淘宝对应的卖家账户，为了简单就直接用正则匹配所需掌柜名称。 ps:项目较老，用的python2.7

遇到三个问题:

1.中文乱码，开始直接就 Response.encoding = 'utf-8'，结果中文都是乱码。查资料可以用 Response.apparent_encoding 看出返回网页的编码格式 GB2312

2.繁体字乱码简单中文没问题，但是繁体字又是乱码，而且Response.apparent_encoding=‘GB2312’，再查资料，直接在浏览器看网页源码，找到 <meta charset="gbk">，改成gbk问题解决

3.汉字无法正则匹配，因Response.text是unicode格式,需转成python支持的utf-8

查看全文

相关阅读:
JavaScript 语句
 JavaScript语法
 JavaScript输出
 JavaScript用法
 JavaScript简介
 利用IDEA构建springboot应用-构建好SpringBoot + SSM 框架
 SP2010开发和VS2010专家"食谱"--第二章节--工作流（4）--创建自定义任务表单
 SP2010开发和VS2010专家"食谱"--第二章节--工作流（3）--创建工作流里的任务
 SP2010开发和VS2010专家"食谱"--第二章节--工作流（2）--部署工作流的InfoPath表单
 SP2010开发和VS2010专家"食谱"--第二章节--工作流（1）--创建带有初始表单的网站工作流

原文地址：https://www.cnblogs.com/yeteng/p/10954100.html

Copyright © 2011-2022 走看看