zoukankan      html  css  js  c++  java
  • 使用C#处理基于比特流的数据

    使用C#处理基于比特流的数据

     

    0x00 起因

    最近需要处理一些基于比特流的数据,计算机处理数据一般都是以byte(8bit)为单位的,使用BinaryReader读取的数据也是如此,即使读取bool型也是一个byte。不过借助于C#基础类库中提供的一些方法,也实现了对基于比特的数据的读取。任务完成后觉得基于比特的数据挺有意思,自己试了下用7比特和6比特编码常用ASCII字符。最后把一点新的写成博客,一方面做个记录,另一方面希望对有类似需求的园友有所帮助。

    0x01 比特流数据的读取

    假设我们有一个byte b = 35,而我们需要把其中的前4bit和后4bit分别读取为两个数字,那么应该怎么做呢。虽然没有在基础类库中找到现成的方法,但用二进制字符串中转一下,分两步也可以做到。

    1、先把b表示为二进制字符串00100011

    2、分别取其前后4bit转为数字,核心方法就是:

    Convert.ToInt32("0010");

    这样就实现了基于比特的数据读取了。

    关于第一步中把byte转化为二进制字符串有很多种方法,

    1、最简单的Convert.ToString(b,2)。不够8位就在高位用0补足。

    2、也可以把byte分别与1,2,4,8 … 128做与运算,由低到高取出各位。

    3、也可以把byte和32做与运算,然后把byte左移再次与128做与运算。

    其中第一种方法会产生大量的字符串对象,在第2、3种方法没有找到太大区别,我选择的3,纯靠感觉。代码如下:

    public static char[] ByteToBinString(byte b)
    {
      var result = new char[8];
      for (int i = 0; i < 8; i++)
      {
        var temp = b & 128;
        result[i] = temp == 0 ? '0' : '1';
        b = (byte)(b << 1);
      }
      return result; }

    为了能将byte[]转化为二进制字符串,可以

    Public string BitReader(byte[] data)
    {
        BinString = new StringBuilder(data.Length * 8);
        for (int i = 0; i < data.Length; 
        {
             BinString.Append(ByteToBinString(data[i]));
        }
        return BinString.ToString();
    }    

    这样一来当拿到byte[]数据时,可以转换为二进制字符串保存起来,根据偏移的bit位置和bit长度从中读取二进制字符串,并保转换为bool,Int16,Int32等。基于这个思路,可以写一个BitReader类,其中用StringBuilder存储二进制字符串,并提供Read方法从二进制字符串中读取数据。为了能够更好的处理数据流,在此基础上添加一个Position记录当前偏移,当使用某些Read方法读取数据时,Position也会相应移动。例如使用ReadInt16读取数据,BitReader会从Position当前位置,读取16bit并转换为Int16返回,同时Position向后移动16bit。区分方式就是当读取数据时需要指定起始的偏移位置时,Position不移动,直接从当前Position读取时Position移动,BitReader类部分代码如下:

     1 public class BitReader
     2 {
     3     public readonly StringBuilder BinString;
     4     public int Position { get; set; }
     5 
     6     public BitReader(byte[] data)
     7     {
     8         BinString = new StringBuilder(data.Length * 8);
     9         for (int i = 0; i < data.Length; i++)
    10         {
    11             BinString.Append(ByteToBinString(data[i]));
    12         }
    13         Position = 0;
    14     }
    15 
    16     public byte ReadByte(int offset)
    17     {
    18         var bin = BinString.ToString(offset, 8);
    19         return Convert.ToByte(bin, 2);
    20     }
    21 
    22     public byte ReadByte()
    23     {
    24         var result = ReadByte(Position);
    25         Position += 8;
    26         return result;
    27     }
    28 
    29     public int ReadInt(int offset, int bitLength)
    30     {
    31         var bin = BinString.ToString(offset, bitLength);
    32         return Convert.ToInt32(bin, 2);
    33     }
    34 
    35     public int ReadInt(int bitLength)
    36     {
    37         var result = ReadInt(Position, bitLength);
    38         Position += bitLength;
    39         return result;
    40     }
    41 
    42     public static char[] ByteToBinString(byte b)
    43     {
    44         var result = new char[8];
    45         for (int i = 0; i < 8; i++)
    46         {
    47             var temp = b & 128;
    48             result[i] = temp == 0 ? '0' : '1';
    49             b = (byte)(b << 1);
    50         }
    51         return result;
    52      }
    53 }
    View Code

    使用BitReader按照4bit从byte[] buff= {35,12};中读取数据可以这样:

    var reader = new BitReader(buff); //二进制字符串为0010001100001100
    
    var num1 = reader.ReadInt(4);   //从当前Position读取4bit为int,Position移动4bit,结果为2,当前Position=4
    
    var num2 = reader.ReadInt(5,6);  //从偏移为5bit的位置读取6bit为int,Position不移动,结果为48,当前Position=4
    
    var b = reader.ReadBool();  //从当前Position读取1bit为bool,Position移动1bit,结果为False,当前Position=5

    0x02 比特流数据的写入

    把数据写入比特流就是一个相反的过程,我们用BitWriter类实现,在其中存储StringBuilder保存二进制字符串,当写入数据时,需要传入数据并指定保存这个数据所需要的bit数。当写入完毕后可以将StringBuilder中保存的二进制字符串按照8bit转换为byte[]并返回。BitWriter的核心部分如下:

     1 public class BitWriter
     2 {
     3     public readonly StringBuilder BinString;
     4 
     5     public BitWriter()
     6     {
     7         BinString = new StringBuilder();
     8     }
     9 
    10     public BitWriter(int bitLength)
    11     {
    12         var add = 8 - bitLength % 8;
    13         BinString = new StringBuilder(bitLength + add);
    14     }
    15 
    16     public void WriteByte(byte b, int bitLength=8)
    17     {
    18         var bin = Convert.ToString(b, 2);
    19         AppendBinString(bin, bitLength);
    20     }
    21 
    22     public void WriteInt(int i, int bitLength)
    23     {
    24         var bin = Convert.ToString(i, 2);
    25         AppendBinString(bin, bitLength);
    26     }
    27 
    28     public void WriteChar7(char c)
    29     {
    30         var b = Convert.ToByte(c);
    31         var bin = Convert.ToString(b, 2);
    32         AppendBinString(bin, 7);
    33     }
    34 
    35     public byte[] GetBytes()
    36     {
    37         Check8();
    38         var len = BinString.Length / 8;
    39         var result = new byte[len];
    40 
    41         for (int i = 0; i < len; i++)
    42         {
    43             var bits = BinString.ToString(i * 8, 8);
    44             result[i] = Convert.ToByte(bits, 2);
    45         }
    46 
    47         return result;
    48     }
    49 
    50     public string GetBinString()
    51     {
    52         Check8();
    53         return BinString.ToString();
    54     }
    55 
    56 
    57     private void AppendBinString(string bin, int bitLength)
    58     {
    59         if (bin.Length > bitLength)
    60             throw new Exception("len is too short");
    61         var add = bitLength - bin.Length;
    62         for (int i = 0; i < add; i++)
    63         {
    64             BinString.Append('0');
    65         }
    66         BinString.Append(bin);
    67     }
    68 
    69     private void Check8()
    70     {
    71         var add = 8 - BinString.Length % 8;
    72         for (int i = 0; i < add; i++)
    73         {
    74             BinString.Append("0");
    75         }
    76     }
    77 }
    View Code

    下面举个简单的例子:

    var writer = new BitWriter();
    
    writer.Write(12,5);  //把12用5bit写入,此时二进制字符串为:01100
    
    writer.Write(8,16);  //把8用16bit写入,此时二进制字符串为:011000000000000001000
    
    var result = writer.GetBytes(); //8bit对齐为011000000000000001000000
                                    //返回结果为[96,0,64]

    0x03 7比特字符编码

    我们常用的ASCII字符是使用8bit编码的,但其中真正常用的那些字符只有7bit,最高位为0,所以对于一篇英文文章,我们可以使用7bit重新编码而不损失信息。编码的过程就是把文章字符依次取出,并用BitWriter按照7bit写入,最后获取新编码的byte[]。为了能够正确读取,我们规定当读到8bit数据为2时代表数据开始,接下来16bit数据为后面字符个数。代码如下:

        public byte[] Encode(string text)
        {
            var len = text.Length * 7 + 24;
    
            var writer = new BitWriter(len);
            writer.WriteByte(2);
            writer.WriteInt(text.Length, 16);
    
            for (int i = 0; i < text.Length; i++)
            {
                var b = Convert.ToByte(text[i]);
                writer.WriteByte(b, 7);
            }
    
            return writer.GetBytes();
        }

    同样读取数据的时候,我们先寻找开始标识符,然后读出字符个数,根据字符个数依次读取字符,代码如下:

        public string Decode(byte[] data)
        {
            var reader = new BitReader(data);
            while (reader.Remain > 8)
            {
                var start = reader.ReadByte();
                if (start == 2)
                    break;
            }
            var len = reader.ReadInt(16);
            var result = new StringBuilder(len);
            for (int i = 0; i < len; i++)
            {
                var b = reader.ReadInt(7);
                var ch = Convert.ToChar(b);
                result.Append(ch);
            }
    
            return result.ToString();
        }

    由于数据头的存在,当编码几个字符时编码后数据反而更长了

     

    不过随着字符越多,编码后节省的越多。

     

    0x04 6比特字符编码

    从节省数据量的角度,如果允许损失部分信息,例如损失掉字母大小写,是可以进一步减少编码所需比特数的。26个字母+10个数字+符号,可以用6bit(64)进行编码。不过使用这种编码方式就不能用ASCII的映射方式了,我们可以自定义映射,例如0-10映射为十个数字等等,也可以使用自定义的字典,也就是传说中的密码本。经常看国产谍战片的应该都知道密码本吧,密码本就是一个字典,把字符进行重新映射获取明文,算是简单的单码替代,加密强度很小,在获取足量数据样本后基于统计很容易就能破解。下面我们就尝试基于自定义字典用6bit重新编码。

    编码过程:

    仍然像7bit编码那样写入消息头,然后依次取出文本中的字符,从字典中找到对应的数字,把数字按照6bit长度写入到BitWriter

        public byte[] Encode(string text)
        {
            text = text.ToUpper();
            var len = text.Length * 6 + 24;
    
            var writer = new BitWriter(len);
            writer.WriteByte(2);
            writer.WriteInt(text.Length, 16);
    
            for (int i = 0; i < text.Length; i++)
            {
                var index = GetChar6Index(text[i]);
                writer.WriteInt(index, 6);
            }
    
            return writer.GetBytes();
    
        }
    
        private int GetChar6Index(char c)
        {
            for (int i = 0; i < 64; i++)
            {
                if (Dict.Custom[i] == c)
                    return i;
            }
            return 10; //return *
        }

    解码过程:

    解码也很简单,找到消息头,依次按照6bit读取数据,并从字典中找到对应的字符:

    public string Decode(byte[] data)
    {
        var reader = new BitReader(data);
        while(reader.Remain > 8)
        {
            var start = reader.ReadByte();
            if (start == 2)
                break;
        }
        var len = reader.ReadInt(16);
        var result = new StringBuilder(len);
        for (int i = 0; i < len; i++)
        {
            var index = reader.ReadInt(6);
            var ch = Dict.Custom[index];
            result.Append(ch);
        }
    
        return result.ToString();
    }

    同样一段文本用6bit自定义字典编码后数据长度更短了,不过损失了大小写和换行等格式。

    如果从加密的角度考虑,可以设置N个自定义字典(假设10个),在消息头中用M bit(例如4bit)表示所用的字典。这样在每次编码时随机选择一个字典编码,解码时根据4bit数据选择相应字典解码,并且定时更换字典可以增大破解难度。感兴趣的园友可以自行尝试。

    0x05 写在最后

    以上是我处理比特流数据的一点心得,仅仅是我自己能想到的一种方法,满足了我的需求。如果有更效率的更合理的方法,希望赐教。另外编码和解码的两个例子是出于有趣写着玩的,在实际中估计也用不到。毕竟现在带宽这么富裕,数据加密也有N种可靠的多的方式。

    示例代码:https://github.com/durow/TestArea/tree/master/BitStream

    关于基于比特流的数据读取封装成了库

    安装:PM> Install-Package Ayx.BitIO

    项目地址:https://github.com/durow/Ayx.BitIO


    更多内容欢迎访问我的博客:http://www.durow.vip

  • 相关阅读:
    Python 集合
    Python sorted()
    CodeForces 508C Anya and Ghosts
    CodeForces 496B Secret Combination
    CodeForces 483B Friends and Presents
    CodeForces 490C Hacking Cypher
    CodeForces 483C Diverse Permutation
    CodeForces 478C Table Decorations
    CodeForces 454C Little Pony and Expected Maximum
    CodeForces 313C Ilya and Matrix
  • 原文地址:https://www.cnblogs.com/durow/p/5957306.html
Copyright © 2011-2022 走看看