在C11(ISO/IEC 9899:2011)标准中引入了对UTF8、UTF16以及UTF32字符编码的支持。
其中,UTF8字符直接通过char来定义,字面量前缀使用u8。比如:
char c = u8'你'; const char *s = u8"你好";
而UTF16字符直接通过char16_t来定义,字面量前缀使用u。比如:
#include <uchar.h> char16_t c = u'你'; const char16_t *s = "你好";
而UTF32字符直接通过char32_t来定义,字面量前缀使用U。比如:
#include <uchar.h> char32_t c = U'你'; const char32_t *s = U"你好";
在使用char16_t以及char32_t的时候必须包含头文件<uchar.h>。除此之外,C11标准中还添加了诸如wsprintf、wfprintf、vwprintf、wprintf等宽字符函数。不过这些函数的字符串都是const wchar_t*类型的,即宽字符指针类型。而对于Unicode字符的显示是各家平台自己实现的。在OS X以及iOS中,至今(Apple LLVM 6.0)还没完美地支持这一C11特性,但是UTF8、UTF16以及UTF32字面量都已经支持了,尽管系统本身不支持对UTF32编码格式的解析。另外,也没有包含<uchar.h>头文件。不过,我们可以使用Foundation库自带的unichar类型来代替char16_t。另外,printf函数不支持对UTF16编码字符的打印,若要打印UTF16字符或字符串,只能用Foundation里的NSLog函数。
下面举些例子:
#include <stdio.h> #include <wchar.h> - (void)viewDidLoad { [super viewDidLoad]; // Do any additional setup after loading the view, typically from a nib. const char *s = u8"你好,世界!"; printf("此UTF-8字符串为: %s ", s); unichar ch = u'你'; const unichar *us = u"好,世界!"; NSLog(@"该UTF16是:%C%S", ch, us); wprintf(L"iOS does not support for printing wide-character unicodes! "); }
在NSString字符串格式中,%C对应类型为unichar(实际为unsigned short)的UTF16编码字符;%S对应类型为const unichar*,即UTF16编码的字符串。
由于OS X以及iOS所用的LLVM Clang编译器没有引入C11标准的<uchar.h>,因此有些UTF8与UTF16字符串的标准转换函数在这些环境下均无法支持,我们只能通过Foundation库的NSString来解决。不过,如果在Linux下,我们使用GCC4.8或更高版本的话,那么就能使用标准的C11提供的转换函数了。不过在标准C语言中,printf、puts这类打印函数只支持对UTF-8编码格式的字符串的正确打印,因此我们要输出的话需要把UTF-16编码的字符串转为UTF-8。下面介绍在标准C11情况下如果操作UTF-8、UTF16字符串,它们之间的相互转换以及打印输出。
#include <stdio.h> #include <uchar.h> size_t UTF16StrLen(const char16_t *utf16String) { if(utf16String == NULL) return 0; size_t index; for(index = 0; utf16String[index] != u'