zoukankan      html  css  js  c++  java
  • 几种编码方式

    UTF-16是Unicode字符编码五层次模型的第三层,字符编码表(Character Encoding Form,)的一种实现方式。即把Unicode的字符集的抽象码位

    映射为16位长的整数(即码元)的序列,用于数据存储或传递。Unicode字符的码位,需要1个或者2个16位长的码元来表示,因此这是一个变长表示。

    UTF-16比起UTF-8,好处在于大部分字符都以固定长度的字节 (2字节) 储存,但UTF-16却无法兼容于ASCII编码。

    Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

    GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码;

    GBK是GB2312的扩展,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名。

    Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

    UTF-8和GBK的区别:

    字符均使用双字节来表示,只不过区分中文,将其最高位都定成1.

    至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文

    使用24位(三个字节)来编码。对于英文字符使用较多的论坛则用UTF-8节省空间。

    GBK包括全部中文字符;UTF-8则包含全世界所有国家需要用到的字符。

    UTF-8编码的文字可以在各国各种支持UTF-8字符集的浏览器上显示。

    大家都使用过Word,Word在打开文本文件的时候,如果其检测不是系统默认编码,就会让用户选择,并且推荐一种编码给用户(有时候不一定对,因为猜,就有几率不对),让用户自己决定要用什么编码显示.

    CSV文件:CSV(comma  seperated value)即逗号分隔符,用记事本打开的话hi"a","b","c"这种格式,是文本文件。

    好处:可以轻松的导入表格和数据库中,一行代表一条数据,这样就可以批量的导入导出数据库中的值,这种文件格式经常用来作为不同程序之间的数据交互的格式。

     半角逗号 , 和全角逗号 ,的区别:

    二者外观差不多,但是,半角逗号只占半个汉字的位置,而全角逗号占一个汉字的位置,半角逗号用在英文里面。

    csv文件的创建:

    你有一个TXT文件,并且各项之间以逗号分隔,那么你直接将扩展名改为CSV文件,以EXCEL打开,以逗号分隔的每一列就自动到了EXCEL的每一列中。
    你也可以用EXCEL将你的内容存成CSV文件格式。

    csv文件的具体文件格式:

    1、每条记录占一行;

    2、以逗号为分隔符;

    3、逗号前后的空格会被忽略;

    4、字段中包含有逗号,该字段必须用双引号括起来;

    5、字段中包含有换行符,该字段必须用双引号括起来;

    6、字段中包含有空格,该字段必须用双引号括起来;

    7、字段中的双引号用两个引号来表示,相当于转义字符;

    8、字段中如果由双引号,该字段必须用双引号括起来;

    9、第一条记录,可以是段名。

    文本文件和二进制文件的区别:

    对于文本文件来说,每个字节(或每几个字节)的意义相同,你只要一个一个字节的读出来就OK了;而对于二进制文件来说,可能由4个字节保存了一个整型,

    接下去有4个字节保存了一个浮点型等等。所以要想打开二进制文件需要了解它的文件格式。

    要想知道文件格式,你可以用16进制编辑器打开一个二进制文件,然后猜测它的格式。

    注意:不同操作系统的换行符之间的区别:

    在windows中:

    '/r':回车(Carriage Return),回到当前行的行首,而不会换到下一行;

    '/n':换行(Line Feed),换到当前位置的下一行,而不会回到行首。

    Unix与Mac系统中,每行结尾只有换行,即:/n,所以:

    一个直接后果是,Unix/Mac系统下的文件在Windows里打开的话,所有文件会变成一行;而

    Windows里的文件在Unix/Mac下打开的话,在每行的结尾可能会达到多出一个^M符号。

  • 相关阅读:
    进制
    enum
    文件操作fstream
    文件读取 FILE
    static_cast、dynamic_cast、reinterpret_cast、和const_c
    std::max 错误
    boost 时间
    c++ new 和delete
    c++ static静态
    BOOST 之filesystem, path
  • 原文地址:https://www.cnblogs.com/xh0102/p/5244190.html
Copyright © 2011-2022 走看看