什么是编码
大家都知道计算机其实是一个二进制的世界,但是它又是如何为我们呈现出另一面缤纷多彩的世界出来的呢?编码技术就是其中最重要的基础组成部分,事实上在人类世界中编码技术是无处不在的。
这里所说的编码指并非指Coding,Coding指的是书写代码的过程,即编程(Programming)。
首先让我们用“数学”的语言描述一下到底什么是编码:
编码就相当于一个函数,它将一个集合中的元素映射到另一个集合中去。
通俗的讲,编码就是一个协议(规定),以实现用一个信息来代替另外的一个信息的目的。计算机世界是一个二进制世界,那么她是如何认识‘A’这个字母的呢?答案就是利用编码技术硬性地将二进制数‘1000001’映射为‘A’,只要是遵循这项编码技术的计算机,当它遇到一个字符值等于‘1000001’时,她就会将它解释为字符‘A’。
一般而言,编码中的两个集合之间的元素都是一一对映的,当然也有例外。
什么是数值编码
由于计算机是二进制的,无法表达负数,整数值,小数等数值,因此计算机需要将这些数值进行编码,来扶持这些数值的使用。下面只讲正负整数值的映射。
原码
原码是计算机数值编码中最简单的一种,当然也有许多的局限性:
原码 十进制数
00000 映射为 0
00001 映射为 1
00010 映射为 2
00011 映射为 3
00100 映射为 4
…
…
…
11111 映射为 31
可以看出,现在上面的原码编码与二进制数是一样的。聪明的童鞋已经看出来了,使用上面的原码不能表示负数,因此我们还是利用编码技术,将第一个二进制数位规定为符号位,当这个位为0时,表示正数;为1时表示负数。如下:
原码 十进制数
0 0000 映射为 0
0 0001 映射为 1
0 0010 映射为 2
…
…
…
1 1101 映射为 -13
1 1110 映射为 -14
1 1111 映射为 -15
对于原码编码来说,加法是非常简单的,只要在能够表示的范围内,直接使用二进制加法即可,但是使用减法可就麻烦了(计算机中为了简化设计,使用编码技术来用加法实现减法),例如:
2 – 13 = -11
根据交换律,我们可以写成这种形式:
-13 + 2 = -11
那么使用原码的加法则为:
1 1101 + 0 0010
那么结果就为:
1 1101 + 0 0010 = 1 1111
可以看出1 1111在原码中映射为-15,而正确的结果应该是-11。因此当遇到减法时,使用原码是不合适的。为什么不适合呢?我们再观察一下表格,我们可以看出,其中对于负数的编码中,二进制值越大,映射出来的负数却越小:
1 1101 < 1 1110 < 1 1111
-13 >-14 > -15
因此,当我们对-13加上2时,反而得出了-15,而不是-11。
为了解决这个问题,就有了下面的反码编码技术以及补码编码技术。
反码
虽然使用原码能够表示负数,但是在运算减法时得出的却是错误的结果。为了满足使用加法实现减法的要求,前辈们创造出了反码这项编码技术(致敬)。反码的映射表是这样子的:
反码 十进制数
0 0000 映射为 0
0 0001 映射为 1
0 0010 映射为 2
…
…
…
1 1101 映射为 -2
1 1110 映射为 -1
1 1111 映射为 -0
我们对照表中的每一对相反数可以看出,他们的二进制码都是取反的。例如
1 1110 -1
| ||||
0 0001 1
将一个二进制数中的位全部置反的操作(0则置为1,1则置为0),我们称之为取反。在反码的计算机中,对一个数取反,即可得到他的相反数。
接下来,让我们发挥一点想象力来探究下反码对于减法是如何实现的,我们根据0 0000到1 1111的顺序列出反码的映射表:
0 被映射为 0 0000 _____________________正限线 <--------------|
1 被映射为 0 0001 |
2 被映射为 0 0010 |
3 被映射为 0 0011 |
4 被映射为 0 0100 |
5 被映射为 0 0101 |
6 被映射为 0 0110 |
7 被映射为 0 0111 |
8 被映射为 0 1000 |
9 被映射为 0 1001 |
10 被映射为 0 1010 |
11 被映射为 0 1011 |
12 被映射为 0 1100 |
13 被映射为 0 1101 |
14 被映射为 0 1110 |
15 被映射为 0 1111 |
_________________________________________假想的对称轴 |
-15 被映射为 1 0000 |
-14 被映射为 1 0001 |
-13 被映射为 1 0010 |
-12 被映射为 1 0011 |
-11 被映射为 1 0100 |
-10 被映射为 1 0101 |
-9 被映射为 1 0110 |
-8 被映射为 1 0111 |
-7 被映射为 1 1000 |
-6 被映射为 1 1001 |
-5 被映射为 1 1010 |
-4 被映射为 1 1011 |
-3 被映射为 1 1100 |
-2 被映射为 1 1101 |
-1 被映射为 1 1110 |
-0 被映射为 1 1111_____________________负限线 <--------------|
我们可以看出,正数跟负数被一条假想的对称轴分开来,相互对称。我们可以看到,反码的编码方式避免了原码所出现的问题:
-2 < -1 < -0
1 1101 < 11110 < 1 1111
接下来我们看看反码是如何做减法:
2 – 13 = 2 +(-13) = 0 0010 + 1 0010 = 1 0011
通过查表可以知道1 0011正是-11。
目前为此,反码的减法似乎已经能够正常工作了,但是接着看下面的式子,情况却有些不同:
-2 – 13 = -2 + (-13) = 1 1101 + 1 0010 = 0 1111
注意虽然1 1101 + 1 0010应该等于10 1111,但在我们这里的内存模型中,一个数值最多由5个位来储存,因此第6位会被自动丢弃了。
通过查表可以知道0 1111是+15,而不是我们要的值-15。我们接下来比较一下这两种情况,探究一下为什么会出现这种问题?
第一种情况:2 – 13 = 2 + (-13) = 0 0010 + 10010 = 1 0011
对于第一种情况,我们可以看到计算机实际上是做了0 0010 + 1 0010这个加法。参照映射表来看,在这个加法中,我们可以把0 0010看成基址,而1 0010是一个偏移,意思就是把0 0010做为原点,向下走1 0010步,也就是说从+2(0 0010)这个位置,向下走18(1 0010)步,我们可以看到+2向下的第18个数正是-11,因此答案正确。
第二种情况:-2 – 13 = -2 + (-13) = 1 1101 +10010 = 0 1111
第二种情况与第一种情况稍有不同。我们可以看到这个操作相当于以-2为原点,向下走18步。但是我们可以看到,当我们走到第三步是就已经越出了负限线,回到正限线从头开始计数,更糟糕的是反码的编码中有两个0,一个+0,一个-0,占了负限线,正限线两个位置,因此我们走的两步实际上都踏在了0这个值上,所以我们距离正确的值就会少走一步。因此,为了得到正确的结果,那么只要我们发现运算时跨越了负限线,那么其值就一定要再加上1(即再向下踏一步)。
纠正后的操作如下:
-2 – 13 = -2 + (-13) = 1 1101 + 10010 = 0 1111
0 1111 + 1 = 10000(-15)
至此,反码减法完美实现。
实际上“跨越了负限线”对应的计算机术语是“溢出”,即当前的5位的内存位不足以保存当前的值时(0 0010 + 1 0010的值应该为6位的10 1111),我们称这种情况为“溢出”,当发生溢出时,计算机舍弃第6位(相当于从正限线从新开始向下走步数一样,而不是跑出负限线),并设置溢出位标志为1,随后计算机将溢出位标志的值加到结果值上。
实际上不管是第一种还是第二种情况,计算机都会将溢价标志的值加到结果值上,结果总是正确的,而不是多加电路来判断是否加上溢出位标志:
2 - 13 + 溢出位 = 0 0010 + 10010 + 溢出位 = 1 0011 + 0(溢出位) = 10011
-2 - 13 + 溢出位 = 1 1101 + 10010 + 溢出位 = 0 1111 + 1(溢出位) = 1 0000
注意,此处一旦计算机做完加法,溢出位就会被置位并与其结果相加。
补码
我们可以看到,反码的实现有一个问题,因为它有两个0,而不是一个0,并且这两个0(+0,-0)是头尾连接在一起的。因此,我们需要进行改进,我们将-0到-15都向下位移一个位置,-0则越过负限线与正限线的+0重叠在一起,映身表就变成这样:
0 被映射为 0 0000 _____________________正限线 <--------------|
1 被映射为 0 0001 |
2 被映射为 0 0010 |
3 被映射为 0 0011 |
4 被映射为 0 0100 |
5 被映射为 0 0101 |
6 被映射为 0 0110 |
7 被映射为 0 0111 |
8 被映射为 0 1000 |
9 被映射为 0 1001 |
10 被映射为 0 1010 |
11 被映射为 0 1011 |
12 被映射为 0 1100 |
13 被映射为 0 1101 |
14 被映射为 0 1110 |
15 被映射为 0 1111 |
_________________________________________假想的对称轴 |
-16 被映射为 1 0000 |
-15 被映射为 1 0001 |
-14 被映射为 1 0010 |
-13 被映射为 1 0011 |
-12 被映射为 1 0100 |
-11 被映射为 1 0101 |
-10 被映射为 1 0110 |
-9 被映射为 1 0111 |
-8 被映射为 1 1000 |
-7 被映射为 1 1001 |
-6 被映射为 1 1010 |
-5 被映射为 1 1011 |
-4 被映射为 1 1100 |
-3 被映射为 1 1101 |
-2 被映射为 1 1110 |
-1 被映射为 1 1111_____________________负限线 <--------------|
我们可以看到,在原来的位置(即原来是-15的位置)现在由-16来代替,这样负数就比正数多了一个数,所以补码的正负数是不对称的。
对于反码来说将一个负数转化为正数的方法是使用取反操作,对于补码来说,也有一个操作将负数转化为正数,我们称之为取补。
假设有一个数A,其取补操作为:1.求A的反码 2.反码值加1。
我们知道反码是从补码改进来的,主要的改动是负数向下位移了一位,因此我们只要求出A的反码,然后加1即可。反码是可以使用取反来将负数转化为正数的,但是补码则不行,因为补码正负数分布是不对称了(补码中0的补码还是0)。当然我们使用逆运算也是可以求出来的,但已经不能叫做补码操作了:
求补:-A = 求反(+A) + 1
求补逆运算:求反(+A) = (-A) - 1 =》 +A = 求反((-A)-1)
即将负数减1,然后求反即得正数值。
我们可以使用上面反码中所举的两条式子来验算一下补码的减法:
第一种情况:2 – 13 = 2 + (-13) = 0 0010 + 1 0011 = 1 0101
1 0101正是-11的补码,正确。
第二种情况:-2 – 13 = -2 + (-13) = 1 1110 + 10011 = 1 0001
1 0001正是-15的补码,正确。
到这里我们已经学习了原码、反码以及补码。最后在后面留一道思考题。
思考题:
在补码中,为什么+3,+4等数取补后在负数部分都有对应的位置(即-3,-4两个位置),而0取补跟-16逆取补其对应的位置都是它们自身?为什么是-16跟0这两个数而不是其它数?给出一种直观的解释。
对于计算机浮点数编码部分将在另一篇文章中讲叙。
Thanks for reading, by XLCYun.
袖里藏云写于2013/10/20凌晨1:50
希望对计算机学习者们有所帮助,有问题请留言。转载请注明出处。