zoukankan      html  css  js  c++  java
  • UTF8 UTF16 之间的互相转换

    首先需要知道 Unicode 编码范围 [U+00, U+10FFFF], 其中 [U+00, U+FFFF] 称为基础平面(BMP), 这其中的字符最为常用.
    当然, 这 65536 个字符是远远不够的.
    0x010000 - 0x10FFFF 为辅助平面, 共可存放16 * 65536个字符,划分为16个不同的平面
     
    http://www.oschina.net/code/snippet_179574_15065
    按照如下的编码方式,对UTF8和UTF16之间进行转换 

    从UCS-2到UTF-8的编码方式如下(没有处理扩展面):

    UCS-2编码(16进制) UTF-8 字节流(二进制)
    0000 - 007F 0xxxxxxx
    0080 - 07FF 110xxxxx 10xxxxxx
    0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
     
    typedef unsigned long   UTF32;  /* at least 32 bits */
    typedef unsigned short  UTF16;  /* at least 16 bits */
    typedef unsigned char   UTF8;   /* typically 8 bits */
    typedef unsigned int    INT;
     
    /*
    UCS-2编码    UTF-8 字节流(二进制)
    0000 - 007F  0xxxxxxx
    0080 - 07FF 110xxxxx 10xxxxxx
    0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
    */
     
    #define UTF8_ONE_START      (0xOOO1)
    #define UTF8_ONE_END        (0x007F)
    #define UTF8_TWO_START      (0x0080)
    #define UTF8_TWO_END        (0x07FF)
    #define UTF8_THREE_START    (0x0800)
    #define UTF8_THREE_END      (0xFFFF)
     
     
    void UTF16ToUTF8(UTF16* pUTF16Start, UTF16* pUTF16End, UTF8* pUTF8Start, UTF8* pUTF8End)
    {
        UTF16* pTempUTF16 = pUTF16Start;
        UTF8* pTempUTF8 = pUTF8Start;
     
        while (pTempUTF16 < pUTF16End)
        {
            if (*pTempUTF16 <= UTF8_ONE_END
                && pTempUTF8 + 1 < pUTF8End)
            {
                //0000 - 007F  0xxxxxxx
                *pTempUTF8++ = (UTF8)*pTempUTF16;
            }
            else if(*pTempUTF16 >= UTF8_TWO_START && *pTempUTF16 <= UTF8_TWO_END
                && pTempUTF8 + 2 < pUTF8End)
            {
                //0080 - 07FF 110xxxxx 10xxxxxx
                *pTempUTF8++ = (*pTempUTF16 >> 6) | 0xC0;
                *pTempUTF8++ = (*pTempUTF16 & 0x3F) | 0x80;
            }
            else if(*pTempUTF16 >= UTF8_THREE_START && *pTempUTF16 <= UTF8_THREE_END
                && pTempUTF8 + 3 < pUTF8End)
            {
                //0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
                *pTempUTF8++ = (*pTempUTF16 >> 12) | 0xE0;
                *pTempUTF8++ = ((*pTempUTF16 >> 6) & 0x3F) | 0x80;
                *pTempUTF8++ = (*pTempUTF16 & 0x3F) | 0x80;
            }
            else
            {
                break;
            }
            pTempUTF16++;
        }
        *pTempUTF8 = 0;
    }
     
    void UTF8ToUTF16(UTF8* pUTF8Start, UTF8* pUTF8End, UTF16* pUTF16Start, UTF16* pUTF16End)
    {
        UTF16* pTempUTF16 = pUTF16Start;
        UTF8* pTempUTF8 = pUTF8Start;
     
        while (pTempUTF8 < pUTF8End && pTempUTF16+1 < pUTF16End)
        {
            if (*pTempUTF8 >= 0xE0 && *pTempUTF8 <= 0xEF)//是3个字节的格式
            {
                //0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
                *pTempUTF16 |= ((*pTempUTF8++ & 0xEF) << 12);
                *pTempUTF16 |= ((*pTempUTF8++ & 0x3F) << 6);
                *pTempUTF16 |= (*pTempUTF8++ & 0x3F);
     
            }
            else if (*pTempUTF8 >= 0xC0 && *pTempUTF8 <= 0xDF)//是2个字节的格式
            {
                //0080 - 07FF 110xxxxx 10xxxxxx
                *pTempUTF16 |= ((*pTempUTF8++ & 0x1F) << 6);
                *pTempUTF16 |= (*pTempUTF8++ & 0x3F);
            }
            else if(*pTempUTF8 >= 0 && *pTempUTF8 <= 0x7F)//是1个字节的格式
            {
                //0000 - 007F  0xxxxxxx
                *pTempUTF16 = *pTempUTF8++;
            }
            else
            {
                break;
            }
            pTempUTF16++;
        }
        *pTempUTF16 = 0;
    }
     
     
    int main()
    {
        UTF16 utf16[256] = {L"你a好b吗234中国~!"};
        UTF8 utf8[256];
         
        UTF16ToUTF8(utf16, utf16+wcslen(utf16), utf8, utf8+256);
     
        memset(utf16, 0, sizeof(utf16));
     
        UTF8ToUTF16(utf8, utf8 + strlen(utf8), utf16, utf16+256);
     
     
        return 0;
    }
    

      UTF-16 并不比 UTF-8 更受待见, 只是 Windows 默认使用 UTF-16 而已, 所以不得不在它们之间做转换(如果你还在使用非 Unicode 编码, 那你已经是受到微软的毒害了)

      当然, 万恶的微软还是给出了更简单的方法的, 那就是下面的两个函数:

    WideCharToMultiByte

    将UTF-16(宽字符)字符串映射到新的字符串。新的字符串不一定来自多字节字符集。(那你取这个名字是闹哪样? 多字节字符集是什么鬼??? 你怎么不去屎)

    https://msdn.microsoft.com/en-us/library/windows/desktop/dd374130(v=vs.85).aspx

    MultiByteToWideChar 

    将字符串映射到UTF-16(宽字符)字符串。字符串不一定来自多字节字符集。

     https://msdn.microsoft.com/en-us/library/windows/desktop/dd319072(v=vs.85).aspx

    程序: 将 UTF-16 编码的字符串转换为 UTF-8 编码, 并在控制台输出

    #include <Windows.h>
    #include <stdio.h>
    #include <stdlib.h>
    #include <string.h>
    
    void use(const char *utf8str) {
    	system("Pause");
    	system("chcp 65001");
    	if (utf8str == NULL) {
    		printf("NULL
    ");
    		return;
    	}
    	printf("%s
    ", utf8str);
    }
    
    char *utf16to8(const wchar_t *str) {
    	if (str == NULL) {
    		return NULL;
    	}
    	int cBuf = 0; // 缓冲区大小
    	// 计算缓冲区需要的大小, 如果函数成功, 则返回值至少是 1 (UTF-8以0x00结尾)
    	if (cBuf = WideCharToMultiByte(
    		CP_UTF8,
    		0,
    		str,
    		-1,
    		NULL,
    		0,
    		NULL,
    		NULL), !cBuf ){
    			// 计算失败
    			fprintf(stderr, "计算内存失败!");
    			return NULL;
    	}
    	printf("缓冲区大小 %d .
    ", cBuf);
    	char *buf = NULL; // 指向缓冲区
    	buf = (char *)malloc(cBuf); // 分配缓冲区
    	if (!WideCharToMultiByte(
    		CP_UTF8,
    		0,
    		str,
    		-1,
    		buf,
    		1024,
    		NULL,
    		NULL) ){
    			fprintf(stderr, "转换失败!
    ");
    			return NULL;
    	}
    	// 返回缓冲区地址
    	return buf;
    }
    
    void run() {
    	const wchar_t *str = L"Hello你好我的朋友!";
    	char *utf8str = utf16to8(str);
    	use(utf8str);
         free(utf8str); } int main(int argc, char* argv[]) { run(); system("Pause"); return EXIT_SUCCESS; }

      Output如下------>

    缓冲区大小 25 .
    请按任意键继续. . .

    Active code page: 65001
    Hello你好我的朋友!
    Press any key to continue . . .

    上面这个函数调用了两次 WideCharToMultiByte(), 第一次是计算转换所需的空间, 第二次开始转换(It's stupid!)

    那么依葫芦画瓢, 你现在可以将 UTF-8 -> UTF16了吗?

    补两张图

    最终版本:

    wchar_t *
    utf8to16(const char *str) {
            if (str == NULL) return L"(null)";
            // 计算缓冲区需要的大小, 如果函数成功, 则返回 UTF-8 字符数量, 所以无法确定具体字节数
            int cBuf = MultiByteToWideChar(CP_UTF8, 0, str, -1, NULL, 0);
            if (cBuf == 0) return L"(null)";
            wchar_t *buf = malloc(cBuf * 4);
            if (cBuf != MultiByteToWideChar(CP_UTF8, 0, str, -1, buf, cBuf)) return L"(null)";
            return buf;
    }
    
    char *
    utf16to8(const wchar_t *str) {
            if (str == NULL) return "(null)";
            // 计算缓冲区需要的大小, 如果函数成功, 则返回具体字节数, 所以 cBuf 至少是 1 (UTF-8以0x00结尾)
            int cBuf = WideCharToMultiByte(CP_UTF8, 0, str, -1, NULL, 0, NULL, NULL);
            if (cBuf < 1) return "(null)";
            char *buf = malloc(cBuf); // 分配缓冲区
            if (cBuf != WideCharToMultiByte(CP_UTF8, 0, str, -1, buf, 1024, NULL, NULL)) return "(null)";
            return buf;
    }
    

      

  • 相关阅读:
    PHP中判断变量为空的几种方法小结
    PHP实现验证码
    video.js使用技巧
    js实现监听浏览器窗口大小改变事件
    判断不同浏览器,加载不同的css和js文件
    Meta标签详解
    js获取浏览器和设备相关width(屏幕的宽度)
    K-th Symbol in Grammar
    Reverse Linked List
    二叉查找树 BST
  • 原文地址:https://www.cnblogs.com/develon/p/9164566.html
Copyright © 2011-2022 走看看