zoukankan html css js c++ java

字符串编码详解

计算机只能处理数字,文本转换成数字才能处理。

计算机中8个bit作为一个字节byte，所以一个字节最大的表示数字就是255

ASCII码

一个字节表示 --- 美国的标准编码 ---- 最多表示255个字符

中国 GB2312

用两个字节表示一个汉字，把ascii码也包含进去

unicode

全球统一的编码 ，用16，32bit 把 所有的语言都统一到一套编码中

例子：

字母 A  -- ASCII 65       uincode  0000 0000 0100 0001        二进制  0100 0001

汉字 中 -- ASCII 已经超出  uinicode 20013                      二进制  0100 1110 0010 1101

unicode --- 英文会多一倍的空间，和传输时间

utf-8

可变长 编码 ---utf-8
用于传输和储存(3个字节表示一个中文)

注意：在内存计算，编程的时候 --- 定长的 unicode 更好使用

python中获取默认的解码方式

import sys
sys.getdefaultencoding()


	python 2.x 需要在文件上方声明文件的编码方式# -*- coding: utf8 -*-，可以通过str.decode/str.encode处理字符串的文本编码
	保证 python 编辑器的编码正确，或使用 u’中文’保证被转换成 unicode 编码，推荐使用
	sys.setdefaultencoding('utf-8')来保证我们的编码

python解释器在运行py文件的时候，遇到（没有指定 decode 方式的情况下） str 会按照默认的解码方式进行解码；

即 sys.getdefaultencoding()得到的编码方式, 所以py2中的中文会和ascii冲突出错，需要开头指定解码方式

py2 -- ascii   需要 *coding:utf8* 指明，， 或者u’中文’保证被转换成 unicode 编码
py3 -- utf8

例子：

（1）    s = '你好'
        r = s.decode('utf-8').encode('gb2312')
        print r
  报错   SyntaxError: Non-ASCII character 'xe4' in file

 （2）   # _*_coding:utf-8_*_
        s = '你好'
        r = s.decode('utf-8').encode('gb2312')
        print r
  正确

这种问题在py3 中已经不存在

py 2 有str 和 unicode 两种 数据类型，str类型需要 先decode
py 3 只有 unicode，所以可以直接encode


     window  --- gb2312编码
     linux   ---- utf8

 	 enocde 之前 要先转换成 unicode

查看全文

相关阅读:
static，匿名对象
 构造方法
 面向对象
 数组拷贝，可变参数，foreach
毕业设计之七参考文献综述
 毕业设计之六网站搭建学习笔记
 毕业设计之五 PHP语法学习笔记
 毕业设计之四英文资料翻译
 毕业设计之三 mooodle及bigbluebutton使用笔记（未完成）
毕业设计之二 PHP集成环境（Dreamweaver）使用

原文地址：https://www.cnblogs.com/big-handsome-guy/p/8620454.html

热门文章
第一章初识Vue
浅谈Web缓存
 第四章约束
 第三章表操作
 访问修饰符
 import
package
this
封装
 数组内存分析，成员变量和局部变量