为了使每一个汉字有一个全国统一的代码,1980年,我国颁布了第一个汉字编码的国家标准: GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。由于国标码是四位十六进制,为了便于交流,大家常用的是四位十进制的区位码。所有的国标汉字与符号组成一个94×94的矩阵。在此方阵中,每一行称为一个"区",每一列称为一个"位",因此,这个方阵实际上组成了一个有94个区(区号分别为0 1到94)、每个区内有94个位(位号分别为01到94)的汉字字符集。一个汉字所在的区号和位号简单地组合在一起就构成了该汉字的"区位码"。在汉字的区位码中,高两位为区号,低两位为位号。 在区位码中,01-09区为682个特殊字符,16~87区为汉字区,包含6763个汉字 。其中16-55区为一级汉字(3755个最常用的汉字,按拼音字母的次序排列),56-87区为二级汉字(3008个汉字,按部首次序排列)。
所以,当我们需要n个任意汉字时,我们不必建一个全部汉字表,而是利用区位码实现常用汉字的提取。
下面的代码可以实现任意数目汉字的生成:
/// <summary>
/// 此函数为生成指定数目的汉字
/// </summary>
/// <param name="charLen">汉字数目</param>
/// <returns>所有汉字</returns>
public static string[] CreateGBChar(int charLen)
{
int area,code;//汉字由区位和码位组成(都为0-94,其中区位16-55为一级汉字区,56-87为二级汉字区,1-9为特殊字符区)
string[] charArrary = new string[charLen];
Random rand = new Random();
for (int i = 0; i < charLen; i++)
{
area = rand.Next(16, 88);
if (area == 55)//第55区只有89个字符
{
code = rand.Next(1, 90);
}
else
{
code = rand.Next(1, 94);
}
charArrary[i] = Encoding.GetEncoding("GB2312").GetString(new byte[] { Convert.ToByte(area+160), Convert.ToByte(code+160) });
}
return charArrary;
}
/// 此函数为生成指定数目的汉字
/// </summary>
/// <param name="charLen">汉字数目</param>
/// <returns>所有汉字</returns>
public static string[] CreateGBChar(int charLen)
{
int area,code;//汉字由区位和码位组成(都为0-94,其中区位16-55为一级汉字区,56-87为二级汉字区,1-9为特殊字符区)
string[] charArrary = new string[charLen];
Random rand = new Random();
for (int i = 0; i < charLen; i++)
{
area = rand.Next(16, 88);
if (area == 55)//第55区只有89个字符
{
code = rand.Next(1, 90);
}
else
{
code = rand.Next(1, 94);
}
charArrary[i] = Encoding.GetEncoding("GB2312").GetString(new byte[] { Convert.ToByte(area+160), Convert.ToByte(code+160) });
}
return charArrary;
}
下面代码是解析汉字的区位码:
1 /// <summary>
2 /// 获取汉字的区位码
3 /// </summary>
4 /// <param name="gbChar">汉字</param>
5 /// <returns>汉字的区位码</returns>
6 public static string GetAreaCode(char gbChar)
7 {
8 byte[] gbBytes = Encoding.GetEncoding("GB2312").GetBytes(new char[] { gbChar });//解析汉字成二进制数组
9 return string.Format("{0}:{1}", gbBytes[0].ToString("X"), gbBytes[1].ToString("X"));
10 }
2 /// 获取汉字的区位码
3 /// </summary>
4 /// <param name="gbChar">汉字</param>
5 /// <returns>汉字的区位码</returns>
6 public static string GetAreaCode(char gbChar)
7 {
8 byte[] gbBytes = Encoding.GetEncoding("GB2312").GetBytes(new char[] { gbChar });//解析汉字成二进制数组
9 return string.Format("{0}:{1}", gbBytes[0].ToString("X"), gbBytes[1].ToString("X"));
10 }
下面代码是根据区位码获取汉字:
/// <summary>
/// 将区位码转换成汉字
/// </summary>
/// <param name="areaCode">区位码(长度为4)</param>
/// <returns>汉字</returns>
public static char GetGBChar(string areaCode)
{
return Convert.ToChar(Encoding.GetEncoding("GB2312").GetString(new byte[] { Convert.ToByte(areaCode.Substring(0, 2), 16), Convert.ToByte(areaCode.Substring(2, 2), 16) }));
}
/// 将区位码转换成汉字
/// </summary>
/// <param name="areaCode">区位码(长度为4)</param>
/// <returns>汉字</returns>
public static char GetGBChar(string areaCode)
{
return Convert.ToChar(Encoding.GetEncoding("GB2312").GetString(new byte[] { Convert.ToByte(areaCode.Substring(0, 2), 16), Convert.ToByte(areaCode.Substring(2, 2), 16) }));
}