zoukankan      html  css  js  c++  java
  • Qt学习(12)

    Qt学习(12)——Qt程序字符编码

            本节通过一个图形界面示例,将其文本显示控件的汉字乱码纠正,介绍两种方法,第一种是不修改源代码文件编码格式,通过QString::fromLocal8Bit 函数在程序运行时转码;第二种是直接将源代码文件整体转换成 UTF-8编码,就不需要修改具体的代码行了,第二种是最为恰当的实现方式。

    1、乱码程序示例

            下载示例:https://lug.ustc.edu.cn/sites/qtguide/QtProjects/ch03/qtmess/qtmess.7z    ,然后解压到: E:QtProjectsch03qtmess 文件夹里,然后用 QtCreator 打开该项目文件 qtmess.pro ,看到项目配置提示:

     

            一般选中 Select all kits ,然后点击 Configure Project ,让集成开发环境 Qt Creator 自动配置好。为了让例子尽可能简单,里面只有一个源文件 qtmess.cpp ,在项目视图打开该源代码文件,右边编辑器出现以下提示:

    编辑器默认是 UTF-8 编码的源文件,这个 qtmess.cpp 是在简体中文 Windows 里用记事本编辑的,其汉字编码格式是 GBK,所以上图中文出现乱码。右上角也提示出现解码错误,不能用默认的 UTF-8 格式解码。点击“Select Encoding”按钮,打开源文件编码选择对话框:

    对于简体中文,选择 GBK 打头的条目或 GB18030 打头的都可以,windows-936 和其他CP936(CodePage)、MS936(Microsoft)是一个意思,大字符集 GB18030 也有其他称呼,如 ibm-1392,windows 代码页编号 54936。这里选择 GBK 的条目(GBK 条目有重复的,任选一个),然后点击“按编码重新载入”按钮,文件里的汉字就正常了:

     

    注意 UTF-8 和 GBK 其实对英文和数字都是一样的 ASCII 单字节编码,所以源文件用英文和数字是肯定不乱码,主要是汉字之类的本地语言文字编码显示容易出错。Windows 系统里一般的记事本、编辑器、VC++  开发环境等都是默认用 GBK 汉字编码,而 Linux 和 Qt 都是默认用 UTF-8 国际文字编码,所以文本显示乱码一般都是这个原因,从编辑器里选择正确的编码就可以正常显示本地语言文字了。
            选择源文件编码之后,GBK 编码文件和 UTF-8 编码文件都能正确显示,但怎么从 Qt Creator 看到当前文件编码格式呢?这个是可以配置的,让 Qt Creator 自动显示。点击菜单“工具”--> “选项”,在选项对话框左边选择“文本编辑器”,右边选择“显示”,看到下图:

     选中“Display file encoding”,然后点击“OK”按钮,就可以在编辑器右上角看到当前文件的编码格式:

    现在右上角可以看到源文件编码“GBK”了,这其实是一个快捷按钮,打开可以弹出刚才的文件编码对话框的。关于编辑器的编码显示介绍到这,下面解释一下源文件里的内容:

    //qtmess.cpp
    #include <QApplication>
    #include <QTextBrowser>
    #include <QDebug>
    
    int main(int argc, char *argv[])
    {
        QApplication a(argc, argv);
        QString strText = QObject::tr("1234打印汉字");
        QTextBrowser tb;
        tb.setText(strText);
        tb.setGeometry(40, 40, 400, 300);
        tb.show();
        
        return a.exec();
    }

    包含了 QApplication、QTextBrowser、QDebug 三个头文件,QTextBrowser 是一个只读的文本显示框,一般用于大段文字的显示,并可以选择(Ctrl+A)并复制(Ctrl+C)里面的文本;而之前用的 QLabel 一般用于短文本显示,没有复制文本的功能,QLabel 经常配合其他控件使用,显示相关信息。在 main 函数内部:
            第一句定义了 Qt 应用程序入口;
            第二句定义了一个 strText 字符串对象,里面有数字和汉字;
            第三句定义了 QTextBrowser 对象 tb,就是本程序的图形窗口;
            第四句设置文本框的文本内容为 strText ;
            第五句设置文本框的位置(屏幕左上角坐标 40,40)和尺寸(400*300);
            第六句是显示本程序的窗口;
            最后一句是进入应用程序的事件循环,直到退出。
            代码比较简单,接下来我们点击 Qt Creator 左下角的绿色三角形运行按钮,编译运行程序,看看效果:

    不出意外地,数字显示是正常的,汉字是乱码的,因为 Qt5 默认都是将源文件里的字符串当作 UTF-8 编码处理,GBK 多字节编码的汉字就会乱码。

    2、乱码纠正——不推荐的方式

            采用不改变源文件编码格式,而是通过修改具体的代码行,使用 QString::​fromLocal8Bit 函数代替 tr 函数来实现转码。修改 qtmess.cpp 源文件内容如下:

    //qtmess.cpp 
    #include <QApplication>
    #include <QTextBrowser>
    #include <QDebug>
    
    int main(int argc, char *argv[])
    {
        QApplication a(argc, argv);
        QString strText = QString::fromLocal8Bit("1234打印汉字");
        QTextBrowser tb;
        tb.setText(strText);
        tb.setGeometry(40, 40, 400, 300);
        tb.show();
        
        return a.exec();
    }

    上面将原来的 QObject::tr 函数替换成了 QString::fromLocal8Bit函数,因为只有一个字符串所以替换了一次,如果字符串特别多,那就非常麻烦了。而且变成 QString::fromLocal8Bit 函数之后,就不能通过检测 tr 函数进行国际化翻译了,所以本小节的做法是不推荐的。
           点击 Qt Creator 左下角运行按钮,看看运行效果:

    现在汉字是正常显示的,但代价是修改了代码行,如果字符串很多,那就麻烦了。

    3、乱码纠正——应该用的方式

            将 qtmess.cpp 文件内容改回成原来的,还是使用原先的 QObject::tr 封装字符串。在 Qt Creator 编辑器右上角,点击文件编码的“GBK”字样:

    在编码列表里找到“UTF-8”,选中该条目,然后点击右下角的“按编码保存”,QtCreator 会自动将文件内容转换成 UTF-8 格式存储,这样就不需要修改具体的代码行了。然后现在点击左下角运行按钮,同样可以看到正常的汉字显示:

            本教程以后的全部文件格式都是按照 UTF-8 的编码,这也是 Qt5 默认的源文件编码格式,字符串也应该用 tr 函数封装,方便做国际化翻译。如果项目有面向国际化的要求,程序源代码里应该全部用英文和数字等 ASCII 码字符,尽量少用汉字,应当将汉字作为一个语言的翻译文件程序。本教程大多数例子都是不符合国际化标准的,因为方便大家看,作者自己也省事。读者实际的国际化项目开发中应按照全英文的来写代码,然后将英文界面翻译成多种语言文字的。

    4、运行时QString与多种编码格式转换

          QString 类包含大量关于文本字符串编码转换函数,涉及之前提到的 UTF-8、UTF-16、UTF-32、本地语言编码 Local8Bit,还有标准C++ 的普通字符串 StdString 和宽字符串 StdWString,对于其他编码转为 QString,采用的是 QString::from* 静态公有成员函数,这些静态函数返回一个转换好的 QString 对象以供使用。与之对应的是 QString 类对象的 to* 函数,QString 对象可以调用这些 to* 函数转出为其他编码格式的字符串。下面将 QString 类这些成对的函数列一个表,方便查阅:

    转入函数 转出函数 描述
    fromLocal8Bit toLocal8Bit 与操作系统及本地化语言相关,Linux 一般是 UTF-8 字符串,Windows 一般是 ANSI 多字节编码字符串。
    fromUtf8 toUtf8 与 UTF-8 编码的字符串相互转换。
    fromUtf16 utf16 和 unicode 与 UTF-16(UCS2)编码的字符串互相转换,utf16 函数与 unicode 函数功能一样, 注意没有 to 前缀,因为 QString 运行时的内码就是 UTF-16,字符的双字节采用主机字节序。
    fromUcs4 toUcs4 与 UTF-32(UCS4)编码的字符串互相转换,一个字符用四个字节编码,占空间多,应用较少。
    fromStdString toStdString 与 std::string 对象互相转换,因为 C++11 规定标准字符串 std::string 使用 UTF-8 编码,这对函数功能与上面 **Utf8 转码函数相同。
    fromStdWString toStdWString 与 std::wstring 对象相互转换,在 Linux 系统里宽字符是四字节的 UTF-32,在 Windows 系统里宽字符是两字节的 UTF-16。因为不同平台有歧义,不建议使用。
    fromCFString               fromNSString toCFString               toNSString 仅存在于苹果 Mac OS X 和 iOS 系统。

     

    下面展示一个 qtcodec 例子,里面主要使用 QString 对象的转出函数,然后使用 cout 或 qDebug 打印相应的输出。例子下载:
    https://lug.ustc.edu.cn/sites/qtguide/QtProjects/ch03/qtcodec/qtcodec.7z     
    下载后解压到比如 E:QtProjectsch03qtcodec 文件夹,然后用 Qt Creator 打开该项目,项目配置同 “乱码程序示例 ”节示范。然后打开 qtcodec.cpp 文件,查看里面的内容:

    //qtcodec.cpp
    #include <QApplication>
    #include <QTextBrowser>
    #include <QDebug>
    #include <iostream>
    using namespace std;
    
    void Testcout(const QString &str)
    {
        //Locale charset
        cout<<str.toLocal8Bit().data()<<endl;
    
        //UTF-8
        cout<<str.toUtf8().data()<<endl;
        cout<<str.toStdString()<<endl;
    
        //UTF-16, Windows Unicode, UCS2
        cout<<str.unicode()<<endl;
        cout<<str.utf16()<<endl;
        cout<<str.data()<<endl;
    
        //UTF-32, UCS4
        cout<<str.toUcs4().data()<<endl;
    
        //wchar_t: Windows = UTF-16; Linux/Unix = UTF-32
        wcout<<str.toStdWString();
    
        cout<<endl<<endl;
    }
    
    void TestqDebug(const QString &str)
    {
        //Locale charset
        qDebug()<<str.toLocal8Bit().data();
    
        //UTF-8
        qDebug()<<str.toUtf8().data();
        qDebug()<<str.toStdString().data();
    
        //UTF-16, Windows Unicode, UCS2
        qDebug()<<str.unicode();
        qDebug()<<str.utf16();
        qDebug()<<str.data();
    
        //UTF-32, UCS4
        qDebug()<<str.toUcs4().data();
    
        //wchar_t: Windows = UTF-16; Linux/Unix = UTF-32
        qDebug()<<str.toStdWString().data();
    
        //QString object
        qDebug()<<str;
    }
    
    int main(int argc, char *argv[])
    {
        QApplication a(argc, argv);
        QString strText = QObject::tr("1234打印汉字");
        QTextBrowser tb;
        tb.setText(strText);
        tb.setGeometry(40, 40, 400, 300);
        tb.show();
        //Test cout
        Testcout(strText);
        //Test qDebug
        //TestqDebug(strText);
    
        return a.exec();
    }

    qtcodec.cpp 里面首先是头文件包含和名字空间使用,然后是三个函数:Testcout、TestqDebug 和 main 函数。Testcout 和 TestqDebug 函数里的内容参看上面表格,就不一一解释了。需要注意一条,QString 类对象可以通过 data 函数返回它实际的数据存储块指针,如 str.data(),在后面运行测试时可以看到该指针数值。main 函数里面内容就是根据 qtmess.cpp 里改的,增加了测试函数的代码。

            注意两个测试函数不要同时启用,一次测试一个,另一个注释掉,这样查看它们运行结果更清楚,而不会混淆。先测试 Testcout 函数运行效果:

              Qt Creator 输出面板会自动捕获命令行输出,对于命令行(控制台)输出,其字体颜色是黑色的。查看上面输出可以发现,在 Windows  命令行里是只有第一个本地化字符串能正常显示汉字,其他的不是指针就是乱码。所以在与 Windows 命令行进行输入输出沟通时,应该使用 fromLocal8Bit (获取命令行输入)和 toLocal8Bit(输出到命令行)。
             顺便提一下,Windows 系统里的 API 通常有两套同名的,比如 LoadLibrary 函数,这个名字只是一个宏定义,在 VC++ 环境,对于ANSI 多字节程序,它真实函数是 LoadLibraryA,对于 Unicode 程序,它真实函数是 LoadLibraryW。如果读者以后遇到需要和 Windows API 函数打交道时,对于输入输出有乱码的,可以类似的测试一下 QString 的转码函数,对于 ANSI 多字节程序的 API,一般可以用 fromLocal8Bit 和 toLocal8Bit 函数进行沟通;对于 Unicode 程序的 API,可以用fromUtf16 和 utf16 进行沟通,多试试就可以了。
            对 Unix/Linux 系统就没那么多事,因为默认都是 UTF-8 的字符串。
            接下来,我们把 main 函数里的 Testcout 函数调用注释掉,将第二个 TestqDebug 函数启用,测试第二个函数的显示效果:

    qDebug 可以正确显示 Utf8 、StdString 编码的字符串,当然还能智能打印 QString 对象的内容,会用双引号包起来。一般直接使用 qDebug()<<对象名;这种方式就可以了,qDebug()会智能打印 Qt 对象和常规的 C++ 数据类型。(这里我用的Qt版本有点小Bug没有正确显示,Qt 5.5.1版本修复了这个Bug)

         最后教读者一个小窍门,在Windows里的Qt命令行下运行第一个Testcout函数的测试结果:

    命令行里看不到 cout 的输出,有方法可以查看,就是通过管道命令:qtcodec.exe | more 。这样就能看到输出了:

    Qt Creator 输出面板捕获的命令行输出与上图汉字显示是一致的,所以以后都可以直接用 Qt Creator 输出面板来查看命令行输出,不用从命令行自己查看输出的。
    QString 类中关于字符编码的函数都放到本节列举并测试了,后面就不重复介绍了。下一节我们学习 QString 常见的使用方式,QString 是 Qt 程序的基础,可以说每个 Qt 程序都会用到的,所以本章不着急介绍图形控件编程,要先打好基础。

  • 相关阅读:
    C# 类与类的关系(2)
    如何成为一个优秀的程序员?
    设计模式详细系列教程 (二) 创建型模式
    UML系列 (四) 实战机房收费系统
    UML系列 (三) 四种关系
    HDU 4003 Find Metal Mineral(树形DP+分组背包)
    从零开始的acm竞赛生涯
    2016 ACMICPC ECFinal题解整理
    第四章 复杂选择结构
    第五章 循环结构
  • 原文地址:https://www.cnblogs.com/wyxsq/p/5073791.html
Copyright © 2011-2022 走看看