zoukankan      html  css  js  c++  java
  • C++ STL std::wstring_convert处理UTF8

    #include <iostream>  
    #include <string>  
    #include <locale>  
    #include <codecvt>  
    #include <fstream>  
    
    int main(int argc, char *argv[])  
    {  
       std::wstring str = L"123,我是谁?我爱钓鱼岛!";  
       std::wstring_convert<std::codecvt_utf8<wchar_t>> conv;  
       std::string narrowStr = conv.to_bytes(str);  
       {  
          std::ofstream ofs ("c:\test.txt");  
          ofs << narrowStr;  
       }  
       std::wstring wideStr = conv.from_bytes(narrowStr);  
       {  
          std::locale::global(std::locale("Chinese-simplified"));  
          std::wofstream ofs (L"c:\testW.txt");  
          ofs << wideStr;  
       }  
    }  

    http://zh.cppreference.com/w/cpp/locale/codecvt_utf8

    以前一直以为标准库的wofstream只能输出MBCS编码的文本文件,今日接触到codecvt后,知道自己完全错了。

    研究一上午后,得出以下成果(均为自己读MSDN及实验得出)。注:以下代码及说明以VS2010为准。

    先说codecvt头文件(gcc里没找到),这是MSDN的解释:http://msdn.microsoft.com/zh-cn/library/ee292114.aspx

    里面包含了三个类:codecvt_utf8codecvt_utf8_utf16codecvt_utf16,以及一个枚举类型codecvt_mode

    codecvt是用于不同文字编码转换的一个类,codecvt_utfX继承了这个类,实现了不同编码转换的功能。

    codecvt与locale结合使用,实现输出、读取UTF-8及UTF-16编码文本文件。

    例如UTF-8:

    #include <iostream>
    #include <codecvt>
    #include <fstream>
    #include <string>
     
    int main(void)
    {
        using namespace std;
        auto LocUtf8=locale(locale(""),new codecvt_utf8<wchar_t>);
        wofstream wfo(L"Hello.txt");
        wfo.imbue(LocUtf8);
        wfo << L"这是Utf-8编码的文本文件!";
        wfo.close();
     
        wifstream wfi(L"Hello.txt");
        wstring wstr;
        wfi.imbue(LocUtf8);
        wfi >> wstr;
        wcout.imbue(locale(""));
        wcout << wstr << endl;
        system("PAUSE");
    }
    static auto LocUtf8=locale(locale(""),new codecvt_utf8<wchar_t>);用codecvt_utf8实例化一个静态locale。codecvt_utf8<wchar_t>表示在输入输出时将wchar_t转换为UTF-8编码。至于new,与buffer类似不能析构,delete由locale自动管理。wfo.imbue(LocUtf8);表示wfo在输出文件时使用LocUtf8编码,wfi.imbue(LocUtf8)类似。注意不要使用locale::global,这样会影响到wcout。程序运行后会生成Hello.txt文件,其编码用记事本打开后点另存为,其默认编码为文件编码。
    UTF-8是比较特殊的编码格式,识别不需bom。如果将上例的utf8直接改为utf16后运行也有结果,但用记事本打开乱码,UTF-16需要bom头用来识别编码格式。如下:
    #include <iostream>
    #include <codecvt>
    #include <fstream>
    #include <string>
     
    int main(void)
    {
        using namespace std;
        auto LocUtf16=locale(locale(""),new codecvt_utf16<wchar_t, 1114111UL, generate_header>);
        wofstream wfo(L"Hello.txt");
        wfo.imbue(LocUtf16);
        wfo << L"这是Utf-16编码的文本文件!";
        wfo.close();
     
        wifstream wfi(L"Hello.txt");
        wstring wstr;
        wfi.imbue(LocUtf16);
        wfi >> wstr;
        wcout.imbue(locale(""));
        wcout << wstr << endl;
        system("PAUSE");
    }
    差别在这句:new codecvt_utf16<wchar_t, 0x10ffff, generate_header>
    看看codecvt_utf16的定义:
      template<
        class Elem,          //需要转换的原编码格式,此为
        wchar_tunsigned long Maxcode = 0x10ffff,   //最大字符数,用处未知,照抄默认
        codecvt_mode Mode = (codecvt_mode)0   //一个codecvt_mode枚举类型class codecvt_utf16 :
      > 
      public std::codecvt<Elem, char, StateType>

    再看

      codecvt_modeenum codecvt_mode {
        consume_header = 4,    //自动确认bom头,在读取文件时检查。但经过尝试后无效,可能我的用法有误(文字没进来,但多了个换行符)
        generate_header = 2,   //自动输出bom头,在输出文件时检查。
        little_endian = 1      //使用little endian编码(默认big endian,具体解释查看百科)};多个参数使用|(位或)连接,结果强制转换为codecvt_mode型。
      }

    例如little endian编码+自动输出bom头的声明如下:

    new codecvt_utf16<wchar_t, 0x10ffff, codecvt_mode(generate_header | little_endian)>

    推荐使用默认的big endian编码,little endian输出的换行符是一个方框注意:big endian编码的文件不能用little endian,反之亦然。应该能使用consume_header自动识别,但测试无效。

     
  • 相关阅读:
    c++ 启发式搜索解决八数码问题
    基于linux或windows的c/s的循环服务器求一元二次方程的根
    基于linux或windows平台上的c/s简单通信
    第七章总结
    第六章总结
    第五章总结
    第四章总结
    第一章总结
    第三章总结
    第二章总结
  • 原文地址:https://www.cnblogs.com/cthon/p/9340808.html
Copyright © 2011-2022 走看看