关于UTF-8的规则:https://baike.baidu.com/item/UTF-8/481798?fr=aladdin
使用windows系统下的Ubuntu子系统,实现C语言对UTF-8编码格式的文字处理。
#include <stdio.h> // 根据UTF-8的编码格式,打印处文字以及它们相应的编码 // 形参:获取一个无符号字符指针 void PrintUTF8Encoding(unsigned char *str) { unsigned char *chr = str; // 根据UTF-8的规则,一个文字占几个字节可以从首个编码的二进制高位数看出来 // 0代表1个字节,11代表两个字节,以此类推,最多有六个字节 unsigned char bytesArr[] = {0b0, 0b11, 0b111, 0b1111, 0b11111, 0b111111}; int i, j; // bytes存储当前字符的字节数 int bytes; unsigned char *tmp; // C中字符字面量都由' '结尾 while (*chr != '