Byte是8位吗？

zoukankan html css js c++ java

Byte是8位吗？
Byte是8位吗？

——C语境中的Byte及C语言的char类型
- 两类字符
　　在C语言中，字符(character)这个术语具有两个层次上的含义：书写源程序的字符和程序处理的字符。

　　例如，在下面的源程序中“""”之内的“你”、“好”、“，”、“C”、“!”、“\n”就属于程序要处理的字符。
#include <stdio.h>
int main(void)
{
printf("你好，C!\n");
return 0;
}
　　该源程序中的其他字符则属于书写源程序的字符，这其中也可能包含并没有明显显示出来的字符，例如空格字符(space character)、水平制表符(horizontal tab)、垂直制表符(vertical tab)和换页符(form feed)。

　　从某种意义上来说，编辑/编译器是一种接受字符输入，输出可执行文件的软件，由它产生可执行文件经过加载成为内存中的程序，这个程序通常也不可避免地要处理字符。

　　编辑/编译器与它生产出的应用程序并不一定运行在同一个环境中，这就意味着两者可能要各自处理不同的字符集合。

　　编辑/编译器所要处理的字符就是书写C语言源程序所用的字符，这种字符的集合叫源字符集(sourcecharacter set)。而应用程序要处理的字符所构成的集合叫执行字符集(execution character set)。

　　对于多数C语言学习者来说，由于编辑/编译环境与应用程序运行环境是重合的，可能意识不到源字符集与执行字符集之间的区别。
- 源字符集(source character set)
　　源字符集中的字符就是编写C语言源程序的字符，也就是C语言要求编辑/编译器所运行的环境所提供的字符。这套字符由这几部分组成：基本字符集(basic character set)、表示换行的字符（new-line character）和扩展字符(extended characters)。

　　基本字符集(basic character set)包括：

　　　　　　　　A B C D E F G H I J K L M

　　　　　　　　N O P Q R S T U V W X Y Z

　　　　　　　　a b c d e f g h i j k l m

　　　　　　　　n o p q r s t u v w x y z

　　　　　　　　0 1 2 3 4 5 6 7 8 9

　　　　　　　　! " # % & ' ( ) * + , - . / :

　　　　　　　　; < = > ? [ \ ] ^ _ { | } ~

　　　　　　　　空格(space character)

　　　　　　　　控制符：horizontal tab, vertical tab, form feed

　　一共是95个。这就是C语言对编辑/编译器运行环境的最基本的要求，言外之意就是只要编辑/编译器所运行环境提供这95个字符就可以编写C语言程序了。事实上C语言源程序也“主要”地由这95个字符组成。

　　此外，C语言还要求在编辑/编译器运行的环境中，0~9这十个字符的编号（编码）必须是连续的。

　　遗憾的是，有些环境无法全部提供这95个字符。例如，据说有些国家的键盘上压根就没有“[”这个键。

　　由于存在这种情况，所以C语言也容许用所谓的三字符序列(trigraph)来表示那些环境不提供的字符。比如用“??<”表示“{”，用“??>”表示“}”。下面的代码尽管看起来有些怪异，然而依然是合法的C程序。
#include<stdio.h>
int main(void)
??<
printf("你好，C!\n");
return 0;
??>
　　编译器也可以对基本字符集自行进行扩展，这就是所谓的扩展字符(extended characters)。前面代码中的“你”、“好”就属于扩展字符。这些扩展字符只能出现在标识符、字符常量、字符串字面量、头名(header name)、注释以及某些预处理单词(preprocessing token that is never converted to a token)中。代码的其他其他部分出现扩展字符则是一种未定义行为。

　　扩展字符的值是由具体的编译器定义的。源程序可以使用的所有字符的集合叫做扩展字符集(extended character set)。
- 执行字符集
　　应用程序运行的环境中的字符集(the execution character set)也是一种扩展字符集(extended character set)。

其中也必须包括前面提到的源字符集中的那95个基本字符集，0~9这十个字符的编码也必须是连续的。

　　特别需要注意的是，C语言并没有要求执行环境中的基本字符集和编辑/编译环境中的基本字符集具有相同的编码方式，尽管这两个基本字符集的“符”是相同的。

　　执行环境中必须提供的字符还有alert，backspace，carriage return，new line以及一个各位都为0的字符（null character）。

　　执行环境中程序可以处理的其他字符也被叫做扩展字符(extended characters)，这些扩展字符与基本字符集以及alert，backspace，carriage return，new line和null character共同构成了执行环境中的扩展字符集(extended character set)，或称之为执行字符集(the execution character set)。

　　对于执行环境来说，扩展字符(extended characters)同样是由编译器自行定义的。
- C语言中的Byte
　　C语言中的Byte，如同int等类型类似，同样不是一个确定长度的位组。C语言只是要求Byte能放得下执行环境中和编辑/编译环境中基本字符集的编码。这样在某些编译器中C语言中的Byte是9位就不难理解了，这并不违背C语言的基本定义。

同样的道理，如果在编辑/编译环境中，基本字符集的编码是8位，而在运行环境中基本字符集的编码是16位的话，那么Byte的大小显然就必须至少为16位。

　　由此可见，在C语境中的Byte并非是平时普遍认为的octet(8位组)。
- C语言中的char数据类型
　　C语言中的char数据类型是一种整数类型(integer type)，它的大小被定义为1个Byte。亦即

　　sizeof (char) ≡ 1

　　若需要知道某个具体编译器的Byte究竟是多少位，可以查看编译器提供的limits.h。其中定义的符号常量CHAR_BIT就是char类型的位数，也就是Byte的位数。

补充：

C标准的矛盾？

"addressable unit of data large enough to hold any member of the basic character set of the execution environment" (clause 3.6 of the C standard)

可是在5.2.1-3中

The representation of each member of the source and execution basic character sets shall fit in a byte.
查看全文

相关阅读:
Atitit 项目管理之时间管理之道 attilax著艾龙著 1. 项目活动的分解和定义 1 2. 第2章｜项目活动定义与活动排序 13 1 3. 项目活动资源需求估计 2 4. 里程碑节点 2
Atitit 算法之道 attilax著 1. 第二部分（Part II）排序与顺序统计（Sorting and Order Statistics） 1 2. 第六章堆排序（Heapsort）
Atitit 依赖管理之道 1. 概念依赖管理，是指在什么地方以什么形式引入外部代码。 1 1.1.1. 理解模块化和依赖管理： 1 1.2. 依赖管理，有三个层面。单一职责原则，协议对象引用，
Atitit 集成之道 attilax著 1. 所谓系统集成（SI，System Integration）， 1 2. 发展方向 1 2.1. 产品技术服务型 2 2.2. 系统咨询型 2 2.3.
Atitit ide之道开发工具之道 attilax著 v2 s22.docx Atitit ide开发工具之道 attilax总结 1. 代码编辑器功能 3 1.1. 关键词颜色 3 1.2.
Atitit 未来技术趋势没落技术 attilax著艾龙总结 1. 2018技术趋势 2 1.1. 人工智能与区块链 2 1.2. 2、 PWA 或将大热 2 1.3. 5、
Atitit etl之道 attilax著 1. ETL 1 1.1. （数据仓库技术） 2 1.2. ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性
 Atitit 微服务之道 attilax著 1. 什么是微服务架构？ 1 1.1. 、微服务与SOA的关系 :微服务架架构师面向服务架构（SOA）的一种特定实现 2 1.2. 微服务与康威定律 2 1
atitit 虚拟机之道vm之道 runtime设计运行时 .attilax著.docx 1. Atitit 虚拟机的层次架构与常见的虚拟机 3 1.1. Os隔离了硬件的区别 4 1.2.
Atiitt 软件设计之道 attilax著 1. 总概念隶属于软件工程。。 2 2. 需求分析 3 3. 设计分类 3 3.1. 按照力度总体设计架构设计概要设计详细设计 3 3.2.

原文地址：https://www.cnblogs.com/pmer/p/1870709.html

Byte是8位吗？

——C语境中的Byte及C语言的char类型

两类字符

源字符集(source character set)

执行字符集

C语言中的Byte

C语言中的char数据类型