windows/linux 页面编码区别导致 python 乱码

windows/linux 页面编码区别导致 python 乱码

http://blog.csdn.net/haiross/article/details/36189103 可以先看下这篇文章。。写的比较用心和详细并且高深。。我只是记流水账的。

直到今天我才注意到 shell 采用不同编码会导致这么蛋疼的问题。。这半天时间算是认栽了吧。。

首先，Windows的默认编码为GBK，Linux的默认编码为UTF-8。看图：

这个是 Linux shell 的活动代码页编码：

这个是 windows powershell 的：

936 既是 GBK。

而在 Scrapy 中抓取页面然后提取出的信息是以 unicode字符串的形式保存下来的。在python中print即可正常显示文字。但在 powershell 中会出以下问题：

其实，在这里的问题是，scrapy使用unicode类型封装了gbk/utf-8转码后的字符串，导致无法正常解码。这里应该做的，就是去掉unicode类型，此时，codecs.unicode_escape_encode(str)则满足要求

注意，unicode类型转换为其他类型(使用a.encode("utf-8/gbk"))时，则会将该字符串在编码一边，显然不可行。

这里我强调下，unicode是字符集， utf-8 和 gbk 是编码集。至于这俩有什么不同，可以这么说：unicode 定义了所有的字符（目前看来是的），用来展示给你看的，而编码集utf-8是一种字符集的实现，用来面向计算机的，主要用来存储为字节，以及网络传输的。

附：Python 编码使用

# 定义时，使用 u 前缀表示 unicode 类型。

# 其他情况下，默认是 utf-8/gbk 等编码: powershell 下默认为gbk编码。linux终端下默认为utf-8,文件看其编码属性

# 输出时，需要什么编码， encode 成什么编码就OK了。unicoe编码不能直接输出

# 但是，在 print [u'u6211'] 数组时，输出不会有改变。猜测原因是，输出数组时，print并不对其做处理，只是原样输出，而输出string时，会对其进行 encode

查看全文

相关阅读:
安防视频云服务EasyCVR视频上云网关如何通过wireshark将发送的rtp流数据保存成文件？
安防视频监控系统视频上云解决方案EasyCVR语音转发功能音频数据打包发送流程介绍
 安防视频监控系统视频上云解决方案EasyCVR音频基础知识介绍
 如何通过RTSP协议视频平台EasyNVR建立一套外网可访问的4S店远程监控系统？
IP摄像机RTSP协议视频平台EasyNVR点击程序启动后闪退问题排查及解决
 5G时代RTC技术是直播互动的最终选择，EasyRTC视频会议系统将赋能VR/电商直播等更多新场景
 视频会议软件EasyRTC-SFU之mediasoup-demo在 Windows上的编译安装
 视频会议软件/音视频通话软件EasyRTC-SFU开发中如何使用TortoiseGit将代码推送到两个代码仓库？
SFU架构的云视频会议系统如何取代硬件视频会议系统，成为5G时代的视频会议新宠？
云架构视频会议系统EasyRTC企业远程会议MCU版与SFU版在行业应用场景上有什么区别？

原文地址：https://www.cnblogs.com/jiangtu/p/6608212.html