zoukankan      html  css  js  c++  java
  • 【C#】写文件时如何去掉编码前缀

    我们都知道,文件有不同的编码,例如我们常用的中文编码有:UTF8、GK2312 等。

    Windows 操作系统中,新建的文件会在起始部分加入几个字符的前缀,来识别编码。

    例如,新建文本文件,写入单词 Hello,另存为 UTF8。Hello 占 5 个字节,但文本大小却是 8 个字节。(win7 系统下还是这样的,win10 已经去掉了编码前缀,所以 win10 下文件大小依然是 5 个字节。看来微软自己也改变了。)

    我们用 StreamWriter 来生成文件。

    using (StreamWriter sw = new StreamWriter("a.txt"))
    {
        sw.Write("Hello");  // 5 字节
    }
    
    using (StreamWriter sw = new StreamWriter("b.txt", false, Encoding.UTF8))
    {
        sw.Write("Hello");  // 8 字节
    }
    

    诡异的事情发生了,StreamWriter 的默认编码是 UTF8,都是用的 UTF8 编码,怎么文件的大小会不一样呢?

    UTF8Encoding 有两个私有属性:emitUTF8IdentifierisThrowException,初始化时由构造函数传入。

    • emitUTF8Identifier 表示是否添加编码前缀
    • isThrowException 表示遇到编码错误时是否报错

    由此可见,是否添加编码前缀,是可以控制的。

    EncodingUTF8 定义如下,添加编码前缀。

    public static Encoding UTF8 {
        get {
            if (utf8Encoding == null) utf8Encoding = new UTF8Encoding(true);
            return utf8Encoding;
        }
    }
    

    StreamWriter 中使用的默认编码,emitUTF8Identifier=false

    internal static Encoding UTF8NoBOM {
        get { 
            if (_UTF8NoBOM == null) {
                UTF8Encoding noBOM = new UTF8Encoding(false, true);
                _UTF8NoBOM = noBOM;
            }
            return _UTF8NoBOM;
        }
    }
    

    这就是开头的代码中两个文件大小不一样的原因了。

  • 相关阅读:
    Binding to a Service
    UML类图几种关系的总结
    阿里云调试
    Serif和Sans-serif字体的区别
    从Log4j迁移到LogBack的理由
    logback
    java 解析json格式数据(转)
    开源Web测试工具介绍
    GET乱码以及POST乱码的解决方法
    单元测试框架TestNg使用总结
  • 原文地址:https://www.cnblogs.com/createwell/p/12731702.html
Copyright © 2011-2022 走看看