字符串编码 - 走看看

zoukankan html css js c++ java

字符串编码
在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。

用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件

由于Python的字符串类型是str，在内存中以Unicode表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes。

以Unicode表示的str通过encode（）方法进行编码：
'ABC'.encode('ascii') '中文'.encode('utf-8')
反过来，我们从网络或磁盘上读取了字节流，那么读取到的数据是bytes，转变为str要使用decode（）

如果bytes中有一小部分无效字节，可以传入errors='ignore'忽略错误的字节
b'ABC'.decode('ascii') b'xe4xb8xadxe6x96x87'.decode('utf-8') b'xe4xb8xadxff'.decode('utf-8',errors='ignore')
为了避免乱码问题，应当始终坚持使用UTF-8编码对str和bytes进行转换。

由于Python源代码也是一个文本文件，所以，当你的源代码中包含中文的时候，在保存源代码时，就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时，为了让它按UTF-8编码读取，我们通常在文件开头写上这两行：
```
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
```
第一行注释是为了告诉Linux/OS X系统，这是一个Python可执行程序，Windows系统会忽略这个注释；

第二行注释是为了告诉Python解释器，按照UTF-8编码读取源代码，否则，你在源代码中写的中文输出可能会有乱码。

申明了UTF-8编码并不意味着你的.py文件就是UTF-8编码的，必须并且要确保文本编辑器正在使用UTF-8 without BOM编码
查看全文

相关阅读:
MyBatis
JavaAgent
Intellij IDEA
SVN安装总结
 git(笔记)
springboot面试题
 spring总结
 springmvc总结
 jdbc链接数据库
 redis面试题

原文地址：https://www.cnblogs.com/FinnChan/p/11958098.html

热门文章
Vue基础
 Vue入门
 drf入门规范
 MVC、MTV模型和Django请求声明周期
 Web框架
 HTTP协议
 Web应用
 并发编程
 DevelopTool
Browser