zoukankan      html  css  js  c++  java
  • 解决在C#(.net)按字节数截取字符串最后出现乱码的问题

    最近需要用到按字节数截取字符串。在网上找了很多方法。

    Encoding.Default.GetString采用的Default
    Encoding.UTF8.GetBytes采用的是utf-8编码。这样当然是乱码。尤其出现中文时候。
    对这类数据处理当然要用统一的编码来处理。

    例子:1
     string msg= Encoding.UTF8.GetString(Encoding.UTF8.GetBytes(strcode));
    例子:2
    string strcode="我是小明";
    byte[] buffer=Encoding.UTF8.GetBytes(strcode);
    string msg= Encoding.UTF8.GetString(buffer,0,buffer.Length);

    实际结果是截取的结尾会出现乱码。原因是最后的字符是多个字节,被不完整的截取了。

    改进后的办法如下:

            /// <summary>
            /// 按字节数截取字符串的方法(比SubString好用)
            /// </summary>
            /// <param name="source">要截取的字符串(可空)</param>
            /// <param name="NumberOfBytes">要截取的字节数</param>
            /// <param name="encoding">System.Text.Encoding</param>
            /// <param name="suffix">结果字符串的后缀(超出部分显示为该后缀)</param>
            /// <returns></returns>
            public static string SubStringByBytes(string source, int NumberOfBytes, System.Text.Encoding encoding, string suffix = "...")
            {
                if(string.IsNullOrWhiteSpace(source) || source.Length == 0)
                    return source;
    
                if(encoding.GetBytes(source).Length <= NumberOfBytes)
                    return source;
    
                long tempLen = 0;
                StringBuilder sb = new StringBuilder();
                foreach(var c in source)
                {
                    Char[] _charArr = new Char[] { c };
                    byte[] _charBytes = encoding.GetBytes(_charArr);
                    if((tempLen + _charBytes.Length) > NumberOfBytes)
                    {
                        if(!string.IsNullOrWhiteSpace(suffix))
                            sb.Append(suffix);
                        break;
                    }
                    else
                    {
                        tempLen += _charBytes.Length;
                        sb.Append(encoding.GetString(_charBytes));
                    }
                }
                return sb.ToString();
            }
            /// <summary>
            /// 按字节数截取字符串的方法(比SubString好用)
            /// </summary>
            /// <param name="source">要截取的字符串(可空)</param>
            /// <param name="NumberOfBytes">要截取的字节数</param>
            /// <param name="encoding">UTF-8,Unicode,GB2312...</param>
            /// <param name="suffix">结果字符串的后缀(超出部分显示为该后缀)</param>
            /// <returns></returns>
            public static string SubStringByBytes(string source, int NumberOfBytes, string encoding = "UTF-8", string suffix = "...")
            {
                return SubStringByBytes(source, NumberOfBytes, Encoding.GetEncoding(encoding), suffix);
            }


    原理很简单,就是截取之前逐个先判断字符是否超出字节长度,如果超出则扔掉整个字符。

    在JavaScript里面的Blob对象很容易获取字节长度: var len= new Blob(['字符串']).size;

    JS代码是不是比较简洁?

  • 相关阅读:
    Linux常用性能检测命令
    Linux环境下获取网卡连接状态
    posix多线程有感线程高级编程(均衡负载CPU绑定)
    posix多线程有感线程高级编程(线程调度以及优先级设置)
    posix多线程有感线程高级编程(线程和fork,exec)
    posix多线程有感线程高级编程(进程的优先级)
    linux多线程和锁
    posix多线程有感—sysconf系统变量
    posix多线程有感线程高级编程(线程堆栈)
    Linux基本网络设置(IP配置等,网卡驱动缓存,网卡中断)
  • 原文地址:https://www.cnblogs.com/xiongzaiqiren/p/9020731.html
Copyright © 2011-2022 走看看