在中文分词构造分词词典的时候需要将汉字进行散列存储,其散列函数是:
H(汉字编码)=(汉字编码高字节-176)*94+(汉字编码低字节-161)
C#实现:
Encoding GB2312 = Encoding.GetEncoding("gb2312"); string t = "汉字"; byte[] arr = GB2312.GetBytes(t[0].ToString()); int GBindex =(arr[0]-176)*94 + arr[1] - 161;
测试: