为了简单起见,只显示GB2312(简体中文)字符
一、GB2312汉字编码
1.区位码
在国标GB2312—80中规定,所有的国标汉字及符号分配在一个94行、94列的方阵中,方阵的每一行称为一个“区”,编号为01区到94区,每一列称为一个“位”,编号为01位到94位,方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四个阿拉伯数字就是它们的“区位码”。区位码的前两位是它的区号,后两位是它的位号。用区位码就可以唯一地确定一个汉字或符号,反过来说,任何一个汉字或符号也都对应着一个唯一的区位码。汉字“母”字的区位码是3624,表明它在方阵的36区24位,问号“?”的区位码为0331,则它在03区31位。
2.机内码
汉字的机内码是指在计算机中表示一个汉字的编码。机内码与区位码稍有区别。如上所述,汉字区位码的区码和位码的取值均在1~94之间,如直接用区位码作为机内码,就会与基本ASCII码混淆。为了避免机内码与基本ASCII码的冲突,需要避开基本ASCII码中的控制码(00H~1FH),还需与基本ASCII码中的字符相区别。为了实现这两点,可以先在区码和位码分别加上20H,在此基础上再加80H(此处“H”表示前两位数字为十六进制数)。经过这些处理,用机内码表示一个汉字需要占两个字节,分别 称为高位字节和低位字节,这两位字节的机内码按如下规则表示:
高位字节 = 区码 + 20H + 80H(或区码 + A0H)
低位字节 = 位码 + 20H + 80H(或位码 + AOH)
由于汉字的区码与位码的取值范围的十六进制数均为01H~5EH(即十进制的01~94),所以汉字的高位字节与低位字节的取值范围则为A1H~FEH(即十进制的161~254)。
例如,汉字“啊”的区位码为1601,区码和位码分别用十六进制表示即为1001H,它的机内码的高位字节为B0H,低位字节为A1H,机内码就是B0A1H。
根据上面的概念,可以使用以下程序将所有的GB2312编码字符保存在一个文件中:
1 #include <stdio.h> 2 int main() 3 { 4 int area_code,location_code; 5 unsigned char c[3]={0}; 6 FILE * fp = fopen("gb2312_table.c","wb"); 7 char buf[100]; 8 if(fp) 9 { 10 sprintf(buf,"#include "gb2312.h" unsigned short gb2312_table[]= { "); 11 fwrite(buf,1,strlen(buf),fp); 12 for(area_code=1;area_code<95;area_code++)//区码为1-94 13 { 14 fputc(' ',fp); 15 c[0]=area_code + 0xA0;//区码 + A0H 转换为机内码 高字节 16 for(location_code=1;location_code<95;location_code++)//位码为1-94 17 { 18 c[1]=location_code+0xA0;//位码 + A0H 转换为机内码 低字节 19 if(area_code == 1 && location_code == 1) 20 sprintf(buf," 0x%02X%02X",c[0],c[1]); 21 else 22 sprintf(buf,",0x%02X%02X",c[0],c[1]); 23 fwrite(buf,1,strlen(buf),fp); 24 } 25 fputc(' ',fp);//每区一行 26 } 27 sprintf(buf," }; int GetGB2312TableLen() { return sizeof(gb2312_table)/sizeof(unsigned short); } "); 28 fwrite(buf,1,strlen(buf),fp); 29 fclose(fp); 30 } 31 return 0; 32 }
这里多生成了一个函数GetGB2312TableLen,用于获取gb2312_table大小。
下面是一个GB2312区位码查询、转换、区位码全表网址:
http://www.mytju.com/classcode/tools/QuWeiMa.asp
二、UNICODE编码
Unicode是一个涵盖了目前全世界使用的所有已知字符的单一编码方案,也就是说Unicode为每一个字符提供唯一的编码。UTF-16是unicode的16位编码方式,是一种定长多字节编码,用2个字节表示一个unicode字符,AF16UTF16是UTF-16编码字符集。
UTF-8是unicode的8位编码方式,是一种变长多字节编码,这种编码可以用1、2、3个字节表示一个unicode字符,AL32UTF8,UTF8、UTFE是UTF-8编码字符集。
为了方便编码之间的转换,下面的实现均在linux下进行,因为在linux下有libiconv库供我们进行编码转换使用,这里还需要注意,通过使用iconv函数转换编码为unicode宽字符时,如果不是转换为utf-16be或者utf-16le指定的字节序,转换后的字符串最前面会多两个字节用于识别unicode字符串的字节序,开头两个字节为FE FF时为Big-Endian,为FF FE时为Little-Endian。
下面是两个编码转换函数,在具体实现中需要包含iconv.h头文件,如果iconv_open函数失败,perror打印错误信息为"无效参数",解决方法参考博:
http://blog.csdn.net/zxwangyun/article/details/9171057
这个函数将UTF8编码字符串转换为GB2312字符串,转换后的每个字符用2Byte存储,高位在前低位在后
1 static int Utf8ToGb2312(char *sOut, int iMaxOutLen/*BYTE*/, const char *sIn, int iInLen/*BYTE*/) 2 { 3 char *pIn = (char *)sIn; 4 char *pOut = sOut; 5 size_t ret; 6 size_t iLeftLen=iMaxOutLen; 7 iconv_t cd = iconv_open("gb2312", "utf-8"); 8 if (cd == (iconv_t) - 1) 9 { 10 perror("iconv_open()"); 11 return -1; 12 } 13 size_t iSrcLen=iInLen; 14 ret = iconv(cd, &pIn,&iSrcLen, &pOut,&iLeftLen); 15 if (ret == (size_t) - 1) 16 { 17 perror("iconv()"); 18 iconv_close(cd); 19 return -1; 20 } 21 iconv_close(cd); 22 return (iMaxOutLen - iLeftLen); 23 }
有些字符串中可能还包含有ASCII字符,转换后的GB2312编码的字符串可用下面的代码进行检测字符为中文还是ASCII字符:
1 len = Utf8ToGb2312((char*)gb2312,sizeof(gb2312),utf8,strlen(utf8)); 2 printf("UTF8 TEXT LEN:%d converted len=%d ",strlen(utf8),len); 3 for(i=0;i<len;i++) 4 { 5 if(gb2312[i]<128)//为ANSC字符,每个字符用1个Byte存储 6 { 7 printf("ASCII Encode -- code:%c ",gb2312[i]); 8 } 9 else//为GB2312(简体中文),每个字用两个Byte存储 10 { 11 printf("GB2312 Encode -- Area code:%02d%02d Machine code:0x%04x ",gb2312[i]- 0xA0,gb2312[i+1]-0xA0,(gb2312[i]<<8)|gb2312[i+1]); 12 i++;//别忘了GB2312字符需要2个Byte 13 } 14 }
这个函数将GB2312编码字符串转换为UTF-16BE(大端字节序)字符串,转换后的每个字符用2Byte存储,高位在前低位在后:
1 static int Gb2312ToUtf16be(char *sOut, int iMaxOutLen/*BYTE*/, const char *sIn, int iInLen/*BYTE*/) 2 { 3 char *pIn = (char *)sIn; 4 char *pOut = sOut; 5 size_t ret; 6 size_t iLeftLen=iMaxOutLen; 7 iconv_t cd = iconv_open("UTF-16BE", "gb2312"); 8 if (cd == (iconv_t) - 1) 9 { 10 perror("iconv_open()"); 11 return -1; 12 } 13 size_t iSrcLen=iInLen; 14 ret = iconv(cd, &pIn,&iSrcLen, &pOut,&iLeftLen); 15 if (ret == (size_t) - 1) 16 { 17 perror("iconv()"); 18 iconv_close(cd); 19 return -1; 20 } 21 iconv_close(cd); 22 return (iMaxOutLen - iLeftLen); 23 }
UNICODE字符串区分ASCII字符和中文字符很简单,如果是UTF-16BE编码的Unicode字符串(每个字符都用2个Byte来存储),只需要看高8位是否为0即可,如果为0,则为ASCII字符。
三、ASCII编码
ASCII字符中的可见字符为33-126(ASCII值)共94个字符(0-31为控制字符,32为空格,略过),以下为94个ascii可见字符:
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_`abcdefghijklmnopqrstuvwxyz{|}~
四、freetype2入门
参看http://blog.chinaunix.net/uid-190095-id-3123383.html中的例子即可对ft2进行简单使用
这里是一个更详细的ft2的文档:http://blog.sina.com.cn/s/blog_4ab2ba570100y7fm.html
五、ffmpeg libswscale库简单使用
libswscale库使用很简单,下面是一个一幅24bit的bmp图片数据转换为yuv数据的例子,这里将yuv数据直接存储在了一个数组并保存在一个文件中.
需要注意的是,如果直接将YUV数据进行显示,可能和原bmp图片相比是上下颠倒的,所以在转换前,最好将该24bit的bmp图片进行垂直翻转后再进行转换.
1 #include <stdio.h> 2 #include "bmp_header.h" 3 4 //包含swscale.h头文件 5 #ifdef __cplusplus 6 extern "C"{ 7 #endif 8 #include "libavformat/avformat.h" 9 #include "libswscale/swscale.h" 10 #ifdef __cplusplus 11 } 12 #endif 13 14 int save_bgr24_to_yuv420p(const char * src_bmp24_file,const char * dst_yuv_data_file) 15 { 16 FILE *fp = NULL; 17 struct SwsContext *pSwsCtx=NULL; 18 uint8_t * bmp_data = NULL; 19 int data_size = 0; 20 int w=0,h=0; 21 22 fp = fopen(src_bmp24_file, "rb");//打开图片 23 if(fp) 24 { 25 // 位图文件头 26 #ifdef _WIN32 27 BITMAPFILEHEADER bmpheader={0}; 28 BITMAPINFO bmpinfo={0}; 29 fread(&bmpheader,sizeof(BITMAPFILEHEADER),1,fp); 30 fread(&bmpinfo.bmiHeader,sizeof(BITMAPINFOHEADER),1,fp); 31 w = bmpinfo.bmiHeader.biWidth; 32 h = bmpinfo.bmiHeader.biHeight; 33 data_size = bmpheader.bfSize - bmpheader.bfOffBits; 34 #else 35 FileHead bmp_head; 36 Infohead bmp_info; 37 fread(&bmp_head,sizeof(FileHead),1,fp); 38 fread(&bmp_info,sizeof(Infohead),1,fp); 39 w = bmp_info.biWidth; 40 h = bmp_info.biHeight; 41 data_size = bmp_head.bfSize - bmp_head.bfOffBits; 42 #endif 43 if(h<0)h=-h; 44 if(data_size != w * h * 3) 45 { 46 printf("not 24 bit bmp,file size = %d,w=%d,h=%d ",data_size,w,h); 47 fclose(fp); 48 return -1; 49 } 50 bmp_data = (uint8_t *)malloc(data_size); 51 memset(bmp_data,0,data_size); 52 if(bmp_data) 53 { 54 fread(bmp_data,data_size,1,fp); 55 } 56 fclose(fp); 57 fp = NULL; 58 } 59 if(bmp_data) 60 { 61 pSwsCtx = sws_getContext( 62 w, 63 h, 64 PIX_FMT_BGR24, 65 w, 66 h, 67 PIX_FMT_YUV420P, 68 SWS_POINT/*SWS_BILINEAR*/, 69 NULL, 70 NULL, 71 NULL); 72 if(pSwsCtx) 73 { 74 uint8_t *data[4]={bmp_data,NULL,NULL,NULL}; 75 int linesize[4] ={w*3,0,0,0}; 76 int height = 0; 77 uint8_t * buffer = NULL; 78 AVFrame * yuv_frame = avcodec_alloc_frame(); 79 buffer = (unsigned char *)av_malloc(avpicture_get_size(PIX_FMT_YUV420P,w,h)); 80 memset(buffer,0,avpicture_get_size(PIX_FMT_YUV420P,w,h)); 81 avpicture_fill((AVPicture*)yuv_frame,(uint8_t *)buffer,PIX_FMT_YUV420P,w,h); 82 height = sws_scale( 83 pSwsCtx, 84 data, 85 linesize, 86 0, 87 h, 88 yuv_frame ->data, 89 yuv_frame ->linesize); 90 fp = fopen(dst_yuv_data_file,"w"); 91 if(fp) 92 { 93 char buf[1024]={0}; 94 int i=0; 95 sprintf(buf,"/*********************Y***************************/ unsigned char data_Y[]={"); 96 fwrite(buf,1,strlen(buf),fp); 97 for(i=0;i<yuv_frame ->linesize[0]*height;i++) 98 { 99 if(!(i%16)) 100 { 101 sprintf(buf," "); 102 fwrite(buf,strlen(buf),1,fp); 103 } 104 if(i) 105 { 106 sprintf(buf,",0x%02X",*(yuv_frame ->data[0]+i)); 107 } 108 else 109 { 110 sprintf(buf," 0x%02X",*(yuv_frame ->data[0]+i)); 111 } 112 fwrite(buf,strlen(buf),1,fp); 113 } 114 sprintf(buf," }; //%d bytes /**************end of Y***************************/ ",yuv_frame ->linesize[0]*h); 115 fwrite(buf,strlen(buf),1,fp); 116 sprintf(buf,"/********************UV***************************/ unsigned char data_UV[]={"); 117 fwrite(buf,1,strlen(buf),fp); 118 for(i=0;i<yuv_frame ->linesize[1]*height/2;i++) 119 { 120 if(!(i%8)) 121 { 122 sprintf(buf," "); 123 fwrite(buf,strlen(buf),1,fp); 124 } 125 if(i) 126 { 127 sprintf(buf,",0x%02X,0x%02X",*(yuv_frame ->data[1]+i),*(yuv_frame ->data[2]+i)); 128 } 129 else 130 { 131 sprintf(buf," 0x%02X,0x%02X",*(yuv_frame ->data[1]+i),*(yuv_frame ->data[2]+i)); 132 } 133 fwrite(buf,strlen(buf),1,fp); 134 } 135 sprintf(buf," }; //%d bytes /*************end of UV***************************/ ",yuv_frame ->linesize[1]*h); 136 fwrite(buf,strlen(buf),1,fp); 137 fclose(fp); 138 fp = NULL; 139 } 140 av_free(yuv_frame); 141 av_free(buffer); 142 143 sws_freeContext(pSwsCtx); 144 pSwsCtx = NULL; 145 } 146 free(bmp_data); 147 bmp_data = NULL; 148 } 149 return 0; 150 }
其中bmp_header.h定义linux下的BMP头结构体,定义如下:
1 #ifndef __BMP_HEADER_H__ 2 #define __BMP_HEADER_H__ 3 4 #ifndef _WIN32 5 typedef long BOOL; 6 typedef long LONG; 7 typedef unsigned char BYTE; 8 typedef unsigned long DWORD; 9 typedef unsigned short WORD; 10 typedef struct { 11 WORD bfType;//2 12 DWORD bfSize;//4 13 WORD bfReserved1;//2 14 WORD bfReserved2;//2 15 DWORD bfOffBits;//4 16 }__attribute__((packed))FileHead; 17 18 typedef struct{ 19 DWORD biSize;//4 20 LONG biWidth;//4 21 LONG biHeight;//4 22 WORD biPlanes;//2 23 WORD biBitCount;//2 24 DWORD biCompress;//4 25 DWORD biSizeImage;//4 26 LONG biXPelsPerMeter;//4 27 LONG biYPelsPerMeter;//4 28 DWORD biClrUsed;//4 29 DWORD biClrImportant;//4 30 }__attribute__((packed))Infohead; 31 32 #endif//_WIN32 33 34 #endif //__BMP_HEADER_H__