zoukankan      html  css  js  c++  java
  • day10-字符编码

    这节理论比较多,要好好理解,如果理解不了,一定要把结论记下来

    (所以基本没写别的内容)

    ASCII表:
    1、只支持英文字符串
    2、采用8位二进制数对应一个英文字符串

    GBK表:
    1、支持英文字符、中文字符
    2、
    采用8位(8bit=1Bytes)二进制数对应一个英文字符串
    采用16位(16bit=2Bytes)二进制数对应一个中文字符串


    unicode(内存中统一使用unicode):
    1、
    兼容万国字符
    与万国字符都有对应关系
    2、
    采用16位(16bit=2Bytes)二进制数对应一个中文字符串
    个别生僻会采用4Bytes、8Bytes


    unicode表:
    内存
    人类的字符---------unicode格式的数字----------
    | |
    | |
    |
    硬盘 |
    |
    | |
    | |
    GBK格式的二进制 Shift-JIS格式的二进制

    老的字符编码都可以转换成unicode,但是不能通过unicode互转

    utf-8:
    英文->1Bytes
    汉字->3Bytes

    结论:
    1、内存固定使用unicode,我们可以改变的是存入硬盘采用格式
    英文+汉字-》unicode-》gbk
    英文+日文-》unicode-》shift-jis
    万国字符》-unicode-》utf-8

    2、文本文件存取乱码问题
    存乱了:解决方法是,编码格式应该设置成支持文件内字符串的格式
    取乱了:解决方法是,文件是以什么编码格式存如硬盘的,就应该以什么编码格式读入内存

    3、python解释器默认读文件的编码
    python3默认:utf-8
    python2默认:ASCII

    指定文件头修改默认的编码:
    在py文件的首行写:
    #coding:gbk

    4、保证运行python程序前两个阶段不乱码的核心法则:
    指定文件头
    # coding:文件当初存入硬盘时所采用的编码格式


    5、
    python3的str类型默认直接存成unicode格式,无论如何都不会乱码
    保证python2的str类型不乱码
    x=u'上'


    6、了解
    python2解释器有两种字符串类型:str、unicode
    # str类型
    x='上' # 字符串值会按照文件头指定的编码格式存入变量值的内存空间
    # unicode类型
    x=u'上' # 强制存成unicode

  • 相关阅读:
    Object C学习笔记7-字符串NSString之一
    Object C学习笔记6-如何在Windows环境搭建Object C开发环境
    Object C学习笔记5-ARC forbids explicit message* 编译错误
    Object C学习笔记4-内存管理
    Object C学习笔记3-对象的使用和定义
    Object C学习笔记2-NSLog 格式化输出数据
    Object C学习笔记1-基本数据类型说明
    PLSQL Developer 客户端没有TNS监听,无法连接数据库
    ArrayBlockingQueue源码解析(1)
    Google guava cache源码解析1--构建缓存器(3)
  • 原文地址:https://www.cnblogs.com/xiao-zang/p/12481967.html
Copyright © 2011-2022 走看看