Python之令人心烦意乱的字符编码与转码 - 走看看

zoukankan html css js c++ java

Python之令人心烦意乱的字符编码与转码

ASC-II码：英文1个字节（8 byte），不支持中文；

高大上的中国，扩展出自己的gbk、gb2312、gb2318等字符编码。

由于各个国家都有自己的编码，于是就需要统一的编码形式用于国际流传，防止乱码，就有了万国码；

万国码：unicode（默认无论中文还是英文都是至少占用2个字节），为了解决占用字节变多，占用空间增倍的情况，又衍生了扩展集utf-8；

UTF-8：原有的ASC-II码中内容仍用1个字节，欧洲国家的字符用2个字节，汉字等其他的字符用3个字节

decode: 解码到unicode，encode: 将unicode编码到其他格式（如，utf-8，gbk等）

日常中如果我们想要读取其他国家的代码时，先解码（decode）为万国码，再编码（encode）为我们适用的编码形式读取；

比如：GBK到uff-8，先将GBK（decode）到 unicode，再（encode）到utf-8；

查看全文

相关阅读:
【Java小项目】一个Socket连续传输多个文件
 【Java小项目】图片浏览器
 【Java小项目】山寨QQ
Git学习笔记
 【Java爬虫】爬取南通大学教务系统成绩计算绩点
 【Little_things】事件驱动的带界面的Client/Server聊天小程序（java socket）
【Little_things】简单的Client/Server通信小程序(java socket)
Codeforces Round #222 (Div. 1) (ABCDE)
2019 牛客多校五 F. maximum clique 1 (最大团)
Student's Camp CodeForces

原文地址：https://www.cnblogs.com/feigebaqi/p/9138218.html

Copyright © 2011-2022 走看看