1. 位(bit)
- 又名“比特”
- 数据存储的最小单位
- 每个二进制数字
0
或1
就是 1 个位 - 缩写可用小
b
表示
2. 字节(byte)
-
8 个位构成 1 个字节,即:
1 byte = 8 bit
。 -
缩写可用大
B
表示;
// 二进制值(另“国际标准单位值”时进制是1000)
1 B = 8 b;
1 KB = 1024 B; (2^10 B)
1 MB = 1024 KB = 1048576 B; (2^20 B)
1 GB = 1024 MB = 1024*1024 KB = 1024^3 B; (2^30 B)
1 TB = 1024 GB = 1024*1024 MB = 1024^3 KB = 1024^4 B; (2^40 B)
3. 字符
字符是一个信息单位,在计算机里面,一个中文汉字是一个字符,一个英文字母是一个字符,一个阿拉伯数字是一个字符,一个标点符号也是一个字符。如:a、A、中、1、100、+、*、の......等等。
4. 字符集
字符集是字符组成的集合,通常以二维表的形式存在,二维表的内容和大小是由使用者的语言而定,是英语,是汉语,还是阿拉伯语。
5. 字符编码
字符编码是把字符集中的字符编码为特定的二进制数,以便在计算机中存储。编码方式一般就是对二维表的横纵坐标进行变换的算法。一般都比较简单,直接把横纵坐标拼一起就完事了。后来随着字符集的不断扩大,为了节省存储空间,才出现了各种各样的算法。
字符集和字符编码一般都是成对出现的,如ASCII、IOS-8859-1、GB2312、GBK,都是既表示了字符集又表示了对应的字符编码,以后统称为编码。
注意:MiB 和 MB,KiB 和 KB 等的区别:
1KB(kilobyte) = 1000 byte, 1KiB(kibibyte) = 1024 byte
1MB(megabyte) = 1000000 byte, 1MiB(mebibyte) = 1048576 byte
硬盘 生产商是以 GB(十进制,即 10 的 3 次方=1000,如 1MB=1000KB)计算的,而电脑(操作系统)是以 GiB(2 进制,即 2 的 10 次方,如 1MiB=1024KiB)计算的,但用户一般理解为 1MB = 1024KB, 所以为了便于中文化的理解,翻译 MiB 为 MB 也是可以的。
同样根据硬盘厂商与用户对于 1MB 大小的不同理解,所以好多 160G 的硬盘实际容量按计算机实际的 1MB = 1024KB 算都不到 160G,这也可以解释为什么新买的硬盘“缺斤短两”并没有它所标示的那么大。
宽带 网络中,运营商们所说的 1M 带宽是指 1Mbps(megabits per second,兆比特每秒)。bps 是 bit per Second 的缩写,也就是每秒多少“位”(bit)的意思。是用来计算资料传输速率的单“位”。举例来说,电信局通常说的 1M 的宽,所使用的单位就是 bps,我们都知道一个字节等于 8 位,而我们电脑的存储单位使用的是字节,也就是理论上每秒可以向硬盘下载 1X1024/8=128KB/sec 的数据。但这也只是理论上的速度。实际上则要再扣约 12%的数据头信息(包 Ethernet Header,IP Header,TCP Header,ATM Header 等),各种各样的控制讯号。所以传输速度上限应 112KB/sec 左右,而不应该望文生义地理解为“每秒钟可以传送 1M 字节的数据。所以千万不要迷信广告,传输单位的写法上,B 和 b 分别代表 Bytes 和 bits,两者定义不同,差距是 8 倍。
英文字母和中文汉字在不同字符集编码下的字节数
编码 | 字节数(英文) | 字节数(中文) |
---|---|---|
GB2312 | 1 | 2 |
GBK | 1 | 2 |
GB18030 | 1 | 2 |
ISO-8859-1 | 1 | 1 |
UTF-8 | 1 | 3 |
UTF-16 | 4 | 4 |
UTF-16BE | 2 | 2 |
UTF-16LE | 2 | 2 |