UTF-8 有BOM 和无BOM的区别

zoukankan html css js c++ java

UTF-8 有BOM 和无BOM的区别

BOM: Byte Order Mark,即字节序标志

在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little- Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

BOM在Unicode编码中的应用：

UTF-16用BOM标识字节序，通常Unicode文件的开通有0xFFFE表示小端字节序，0xFEFF表示大端字节序。

UTF-8由于编码特性，通常只占有一个字节，不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

Windows相对对BOM处理比较好，是因为Windows把Unicode识别代码集成进了API里，主要是CreateFile()。打开文本文件时它会自动识别并剔除BOM。BOM不受欢迎主要是在UNIX环境下，因为很多UNIX程序不鸟BOM。主要问题出在UNIX那个所有脚本语言通行的首行#!标示，这东西依赖于shell解析，而很多shell出于兼容的考虑不检测BOM，所以加进BOM时shell会把它解释为某个普通字符输入导致破坏#!标示，这就麻烦了。其实很多现代脚本语言，比如Python，其解释器本身都是能处理BOM的，但是shell卡在这里，没办法，只能躺着也中枪。

　　

查看全文

相关阅读:
PC远程调试设备（转）
根据自己的需要，把别人开发好的东西搬过来，优化and重构，在优化的过程中，甚至也会弄出一套全新的东西（转）
修改Hosts不生效的一个场景-web 专题
 Data URI(转)
数据仓库与数据挖掘的一些基本概念
 几种常见模式识别算法整理和总结
 史上最简单的Hibernate入门简单介绍
 sprintf，你知道多少？
一步一步写算法（之洗牌算法）
ListView的优化

原文地址：https://www.cnblogs.com/alvin2010/p/8795052.html

UTF-8 有BOM 和 无BOM的区别

UTF-8 有BOM 和无BOM的区别