汉字统计 - 走看看

zoukankan html css js c++ java

汉字统计
1 #include <stdio.h> 2 3 int isChinese(int ch ) 4 { 5 return ch & 0x80; 6 } 7 8 int main() 9 { 10 char ch[1000]="WaHaHa! WaHaHa! 今年过节不说话要说只说普通话WaHaHa! WaHaHa!"; 11 int i=0, count=0; 12 13 for(i=0; i < 1000; i++) 14 { 15 16 if(isChinese(ch[i])) 17 count ++; 18 } 19 printf("%d ", count/2); 20 return 0; 21 }
通过位运算来判断，0x80为转义字符，也就是二进制的10000000 。ascii 字符占用一个字节(使用低7位)，最高位为0，另外，汉字机内码在计算机的表达方式的描述是，使用二个字节，每个字节最高位一位为1。计算机中，补码第一位是符号位， 1 表示为负数，所以汉字机内码的每个字节表示的十进制数都是负数，结果要除以2，不要忘了。因为汉字占用两个字节。进行按位与运算后，是英文字符返回0，是中文汉字则返回128.还可以通过判断他的每一个字节是否小于零(因为最高位为符号位)，小于0则是中文汉字，否则反。

这说的是多字节编码，而且完全没考虑那些扩充符号标点，具体哪些是真正的汉字还是要靠区位码决定。unicode更不一样，而且unicode还分为UTF-8,UTF-16,UTF-32。UTF-8网络和linux上用得最多，UTF-16就是windows下的unicode，UTF-32是linux下的unicode，不过用得反而没UTF-8多。

//GBK汉字内码范围（不包括A1xx～A9xx的标点符号英文字母特殊符号等）
   //区码  ,位码
   //81-A0 ,40-7E 80-FE
   //AA-AF ,40-7E 80-A0
   //B0-D6 ,40-7E 80-FE
   //D7    ,40-7E 80-F9
   //D8-F7 ,40-7E 80-FE
   //F8-FE ,40-7E 80-A0

对电脑而言没有乱码，只有二进制字节；对人脑才有乱码。啊 GBK:0xB0 0xA1,Unicode-16 LE:0x4A 0x55,Unicode-16 BE:0x55 0x4A,UTF-8:0xE5 0x95 0x8A
查看全文

相关阅读:
Photoshop教程，视频MP4格式转换为GIF格式
 pyqgis环境配置
 R 输出函数格式化输出打印函数
 linux ubuntu 更改终端的默认设置，终端大小，字体
 wps 显示所有的字符，将参考文献排序，插入目录
 在 word 中怎么让表格旋转方向
 linux argc argv
linux 命令行的快捷键 vim
linux 操作系统，以及一般的操作系统所看书籍
 win 10 快速启动某些程序

原文地址：https://www.cnblogs.com/yuanqi/p/3500647.html