zoukankan      html  css  js  c++  java
  • 在Linux下使用iconv转换字符串编码

    在Linux下写C程序,尤其是网络通信程序时经常遇到编码转换的问题,这里要用到iconv函数库。

    iconv函数库有以下三个函数

    1
    2
    3
    4
    5
    6
    #include <iconv.h>
    iconv_t iconv_open(const char *tocode, const char *fromcode); //return (iconv_t)-1 if failed
    size_t iconv(iconv_t cd,
    char **inbuf, size_t *inbytesleft,
    char **outbuf, size_t *outbytesleft); //return (size_t)-1 if failed
    int iconv_close(iconv_t cd); //return -1 if failed

    这三个函数的功能显而易见,分别是打开一个iconv_t句柄,转换字符串以及关闭一个iconv_t句柄。其中有必要一说的是iconv函数,这个函数十分容易用错。

    iconv函数的五个参数中,第一个参数是iconv句柄,第二、三个参数是需要转换的字符串的地址和长度的地址,第四、五个参数是存储结果的字符串的地址和长度的地址,注意这里传的都是地址,因为这四个参数的值都有会被iconv函数改变。iconv会逐步的将*inbuf中的字符转换到*outbuf中,并增加*inbuf指针减少*inbytesleft的值,以及增加*outbuf指针减少*outbytesleft的值。

    iconv函数会因为以下四种原因停止并返回:

    1. *input中遇到了一个非法的多字节序列,返回(size_t)-1并置errno=EILSEQ,返回时*inbuf指向非法字符的开头。
    2. *input全部转换完,返回不可转换的字符数。
    3. *input中遇到了一个不完整的多字节序列,返回(size_t)-1并置errno=EINVAL,返回时*inbuf指向不完整字符的开头。
    4. *output空间不够,返回(size_t)-1并置errno=E2BIG。

    以下给出一个示例函数,将一个字符串从utf-8转换成gbk后再重新转换成utf-8。

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    #include <iconv.h>
    #include <string.h>
    #include <stdio.h>
    #include <errno.h>
    #include <stdlib.h>

    int charset_convert(const char *from_charset, const char *to_charset,
    char *in_buf, size_t in_left, char *out_buf, size_t out_left) {
    iconv_t icd;
    char *pin = in_buf;
    char *pout = out_buf;
    size_t out_len = out_left;
    if ((iconv_t)-1 == (icd = iconv_open(to_charset,from_charset))) {
    return -1;
    }
    if ((size_t)-1 == iconv(icd, &pin, &in_left, &pout, &out_left)) {
    iconv_close(icd);
    return -1;
    }
    out_buf[out_len - out_left] = 0;
    iconv_close(icd);
    return (int)out_len - out_left;
    }

    int main(int argc, char *argv[]) {
    char *from_str = "你好,中南。- Hello, CSU.";
    char *to_str_gbk, *to_str_utf8;
    int len;
    //utf-8 => gbk
    to_str_gbk = (char*)calloc(1, strlen(from_str) * 3);
    if (-1 == (len = charset_convert("UTF-8", "GB2312", from_str,
    strlen(from_str), to_str_gbk, strlen(from_str) * 3))) {
    perror("UTF8=>GBK error");
    }
    //gbk => utf8
    to_str_utf8 = (char*)calloc(1, len * 3);
    if (-1 == (len = charset_convert("GB2312", "UTF-8", to_str_gbk,
    len, to_str_utf8, len * 3))) {
    perror("GBK=>UTF8 error");
    }
    //output
    printf("original : %s ", from_str);
    printf("to gbk : %s ", to_str_gbk);
    printf("gbk to utf8: %s ", to_str_utf8);
    }

    我用的xshell连接到虚拟机,先将terminal的编码设置为utf-8运行,结果如下

    1
    2
    3
    original   : 你好,中南。- Hello, CSU.
    to gbk : ţºã¬אŏ¡£- Hello, CSU.
    gbk to utf8: 你好,中南。- Hello, CSU.

    再将terminal的编码设置为gbk运行,结果如下

    1
    2
    3
    original   : 浣犲ソ锛屼腑鍗椼€? Hello, CSU.
    to gbk : 你好,中南。- Hello, CSU.
    gbk to utf8: 浣犲ソ锛屼腑鍗椼€? Hello, CSU.

    可见,在相应的编码下,对应的字符串能正常显示。

    http://vimersu.win/blog/2014/03/04/linux-iconv/

  • 相关阅读:
    WEB安全第二篇--用文件搞定服务器:任意文件上传、文件包含与任意目录文件遍历
    WEB安全第一篇--对服务器的致命一击:代码与命令注入
    python的内存管理与垃圾回收机制学习
    java反序列化漏洞的检测
    python epoll实现异步socket
    Python class的属性访问控制和内建函数重写实现高级功能以及@property
    weblogic新漏洞学习cve-2017-10271
    PHP后门的eval类和system类 函数到底有哪些区别
    JS 转整型
    .NET MVC model数据验证
  • 原文地址:https://www.cnblogs.com/findumars/p/5603779.html
Copyright © 2011-2022 走看看