day10-字符编码

zoukankan html css js c++ java

day10-字符编码

这节理论比较多，要好好理解，如果理解不了，一定要把结论记下来

（所以基本没写别的内容）

ASCII表：
1、只支持英文字符串
2、采用8位二进制数对应一个英文字符串

GBK表：
1、支持英文字符、中文字符
2、
采用8位（8bit=1Bytes）二进制数对应一个英文字符串
采用16位（16bit=2Bytes）二进制数对应一个中文字符串

unicode（内存中统一使用unicode）：
1、
兼容万国字符
与万国字符都有对应关系
2、
采用16位（16bit=2Bytes）二进制数对应一个中文字符串
个别生僻会采用4Bytes、8Bytes

unicode表：
内存
人类的字符---------unicode格式的数字----------
| |
| |
|
硬盘 |
|
| |
| |
GBK格式的二进制 Shift-JIS格式的二进制

老的字符编码都可以转换成unicode，但是不能通过unicode互转

utf-8：
英文->1Bytes
汉字->3Bytes

结论：
1、内存固定使用unicode，我们可以改变的是存入硬盘采用格式
英文+汉字-》unicode-》gbk
英文+日文-》unicode-》shift-jis
万国字符》-unicode-》utf-8

2、文本文件存取乱码问题
存乱了：解决方法是，编码格式应该设置成支持文件内字符串的格式
取乱了：解决方法是，文件是以什么编码格式存如硬盘的，就应该以什么编码格式读入内存

3、python解释器默认读文件的编码
python3默认：utf-8
python2默认：ASCII

指定文件头修改默认的编码：
在py文件的首行写：
#coding:gbk

4、保证运行python程序前两个阶段不乱码的核心法则：
指定文件头
# coding:文件当初存入硬盘时所采用的编码格式

5、
python3的str类型默认直接存成unicode格式，无论如何都不会乱码
保证python2的str类型不乱码
x=u'上'

6、了解
python2解释器有两种字符串类型：str、unicode
# str类型
x='上' # 字符串值会按照文件头指定的编码格式存入变量值的内存空间
# unicode类型
x=u'上' # 强制存成unicode

查看全文

相关阅读:
【CITE】C# 如何实现一个窗体和另一个窗体始终保持相对的位置
 【CITE】5个最优秀的Java和C#代码转换工具
 【EasyX】RGB to Gray
【Problem solved】发现输入法都是仅桌面使用，无法输入中文时
 【Problem solved】 error C2665: “loadimage”: 2 个重载中没有一个可以转换所有参数类型
 Software Engineering Training in 2016 summer: snake
hello world!
数组名和指针
 取得一个给定的地址所存放的值,将给定值存放在给定地址
 搭建hadoop集群单机版

原文地址：https://www.cnblogs.com/xiao-zang/p/12481967.html