zoukankan      html  css  js  c++  java
  • XML编码utf-8有中文无法解析或乱码 C#

    XML的encoding="UTF-8" ,含有中文的话(部分)会出现乱码。

    网上还是很多这类问题跟解决办法的。

    表现为用ie或者infopath之类的xml软件打不开这个xml,txt打开有时正常有时乱码。

    当然C#也是无法解析的。

    但是用ultraedit打开正常显示,用ultraedit保存为utf8后xml就一切正常了。

    查询发现是bom的原因。

    什么是BOM呢?

    BOM:Byte Order Mark,中文名字节顺序标记。UCS规范建议在传输字节流前,先传输BOM来判断字节顺序。其实UTF-8是不需要用BOM来表明字节顺序的,但是可以用BOM来表明编码方式。BOM的UTF-8编码是EF BB BF,所以呢,如果接受者收到EF BB BF开头的字节流,就说明它是UTF-8编码了。

    由此可见,对于UTF-8来说,BOM是可有可无的,可是,有的XML解析方式不认这个BOM,所以就报错了。

    解决办法如下,强制把xml文本保存为utf8格式就好了

                                    XmlDocument doc = new XmlDocument();
                                    
                                    string xmlString = ReadContext(tmpDir + "\" + xml);
    
                                    try
                                    {
                                        doc.LoadXml(xmlString);
                                    }
                                    catch (Exception e)
                                    {
                                        log.ErrorFormat(string.Format("Xml无法解析,名称:{1}, 格式错误,错误原因:{0}", e.Message, xml));
                                        continue;
                                    }

    ReadContext函数是把xml里的内容作为文本读出来,注意编码很重要,不能用default
    System.Text.Encoding.UTF8
    private static string ReadContext(string path)
            {
                FileStream fs = new FileStream(path, FileMode.Open);
                StreamReader sr = new StreamReader(fs,System.Text.Encoding.UTF8); 

    string context = sr.ReadToEnd();
           fs.Close();
           sr.Close();
           sr.Dispose();
           fs.Dispose();

           return context;
         }
  • 相关阅读:
    php 处理并发问题
    phpstudy 版本切换注意的问题
    php读取文件内容的三种方法
    防止重复提交表单的两种方法
    php 压缩函数gzencode gzdeflate gzcompress
    回调函数解析
    回调函数
    如何卸载红蜘蛛
    无法启动此程序,因为计算机中丢失MSVCR110.dll的解决方法
    mysql 去除重复 Select中DISTINCT关键字的用法
  • 原文地址:https://www.cnblogs.com/jhlong/p/5680561.html
Copyright © 2011-2022 走看看