编码（转） - 走看看

zoukankan html css js c++ java

编码（转）
https://www.zhihu.com/question/28164512

关于编码和乱码的问题，我简单讲一下。

通常问这类问题的人是混淆了若干个不同的概念，并且他们自己也没有意识到自己混淆了这些概念的。
1. 终端显示字符的编码（windows下终端是cmd，linux下是各种terminal，远程登录是putty或者xshell）
2. shell环境的编码。比如中文版windows用的是gbk（向下兼容gb2312），大多数linux发行版使用的是utf-8（LANG=zh_CN.UTF-8）。
3. 文本文件的编码。这个通常取决于你的编辑器，而且有的编辑器支持多种编码的话，你可以在文本开头位置指定编辑器使用特定编码。比如# -*- coding: utf8 -*-，vim看到这行会默认将这个脚本认定为utf-8兼容编码格式。
4. 应用程序的内部编码。一个字符串，作为数据只是一个字节数组，但是作为字符的数组，就有一个解析方式。java和python的内部字符编码是utf-16，python和java都支持用不同的编码来对字节数组进行decode来得到字符数组。
拿题主的问题来解释一下。

我在ubuntu kylin中文环境下默认terminal中做了同样的实验，但是结果和题主恰好相反：

看见没有？

题主和我都没有说谎，这是为什么呢？
因为
unicode("汉字","gb2312")
这坨代码的含义实际上是：将这里显示的这坨看上去像“汉字”的东西，用gb2312解码，转换为unicode字符串。unicode("汉字","utf-8")类似，只不过是用utf-8解码，转成unicode字符串。
（注：这里涉及到两个概念——unicode字符集和utf-8编码——很多时候会用混淆，一个字符集表示一堆符号，而一种编码是用二进制表示这个字符集的一种编码方式。同样是unicode字符集，可以有utf-8、utf-16、utf-32等等编码方式。）

那这里显示的看上去像“汉字”的，tmd的到底是个什么东西？
查看全文

相关阅读:
leetcode 293.Flip Game(lintcode 914) 、294.Flip Game II(lintcode 913)
Android开发 Fragment中调用startActivityForResult返回错误的requestCode
AndroidStudio 编译异常java.lang.OutOfMemoryError: GC overhead limit exceeded
Android 控制ScrollView滚动到底部
 安卓Textview的getLineCount返回0
指定经纬度与数据库多条经纬度进行距离计算
 GPUImage 内置滤镜解析
 ViewPager中使用PhotoView时出现pointerIndex out of range异常
 “You must not call setTag() on a view Glide is targeting” 解决
 android studio出现Error:compileSdkVersion android-x requires compiling with JDK 7问题

原文地址：https://www.cnblogs.com/xiaoerlang/p/7676765.html