zoukankan      html  css  js  c++  java
  • C/C++中浮点数格式学习——以IEEE75432位单精度为例

    这是浮点数的通常表示形式,在IEEE754中,单精度浮点数有如下形式:

    32位单精度

    单精度二进制小数,使用32个比特存储。

    1

    8

    23位长

    S

    Exp

    Fraction

    31

    3023
    偏正值(实际的指数大小+127

    220位编号(从右边开始为0

    S为符号位,Exp为指数字,Fraction为有效数字。 指数部分即使用所谓的偏正值形式表示,偏正值为实际的指数大小与一个固定值(32位的情况是127)的和。采用这种方式表示的目的是简化比较。因为,指数的值可能为正也可能为负,如果采用补码表示的话,全体符号位SExp自身的符号位将导致不能简单的进行大小比较。正因为如此,指数部分通常采用一个无符号的正数值存储。单精度的指数部分是−126+127加上偏移值127,指数值的大小从12540255是特殊值)。浮点小数计算时,指数值减去偏正值将是实际的指数大小。(当指数为0的时候,用非规约数表示,这样做的理由在于,所有的非归约数都比归约数更加接近0,非规约形式的浮点数的指数值是同种情况下规约形式浮点数的指数值再加1。)

    注意通常情况下,23位尾数部分前边自动省略了一个整数部分1,也就是说 num = -1^S * 2^(Exp+127) * (1.xxxxxxx……)    其中xxxx表示尾数部分。

    此外有一些特别的约定:

    单精度浮点数各种极值情况:

    类别

    正负号

    实际指数

    有偏移指数

    指数域

    尾数域

    数值

    0

    -127

    0

    0000 0000

    000 0000 0000 0000 0000 0000

    0.0

    负零

    1

    -127

    0

    0000 0000

    000 0000 0000 0000 0000 0000

    −0.0

    1

    0

    0

    127

    0111 1111

    000 0000 0000 0000 0000 0000

    1.0

    -1

    1

    0

    127

    0111 1111

    000 0000 0000 0000 0000 0000

    −1.0

    最小的非规约数

    *

    -126

    0

    0000 0000

    000 0000 0000 0000 0000 0001

    ±2−23 × 2−126 = ±2−149 ≈ ±1.4×10-45

    中间大小的非规约数

    *

    -126

    0

    0000 0000

    100 0000 0000 0000 0000 0000

    ±2−1 × 2−126 = ±2−127 ≈ ±5.88×10-39

    最大的非规约数

    *

    -126

    0

    0000 0000

    111 1111 1111 1111 1111 1111

    ±(1−2−23) × 2−126 ≈ ±1.18×10-38

    最小的规约数

    *

    -126

    1

    0000 0001

    000 0000 0000 0000 0000 0000

    ±2−126 ≈ ±1.18×10-38

    最大的规约数

    *

    127

    254

    1111 1110

    111 1111 1111 1111 1111 1111

    ±(2−2−23) × 2127 ≈ ±3.4×1038

    正无穷

    0

    128

    255

    1111 1111

    000 0000 0000 0000 0000 0000

    +∞

    负无穷

    1

    128

    255

    1111 1111

    000 0000 0000 0000 0000 0000

    −∞

    NaN

    *

    128

    255

    1111 1111

    non zero

    NaN

    * 符号位可以为01 .

    这里边比较值得一提的,一个是NaN的设置,还有一个是指数为0情况下几种数字的关系。

    1. 在NaN中,尾数必须要非零。

    2. 中间大小的非归约数的二倍正好是最小的归约数,同时也是最大的非规约数;因此,在对浮点数进行乘二操作时,可以依照如下代码:

    1. unsigned float_twice(unsigned uf) {  
    2.     unsigned expn = (uf >> 23) & 0xFF;  
    3.     unsigned sign = uf & 0x80000000;  
    4.     unsigned frac = uf & 0x007FFFFF;  
    5.     if (expn == 255 || (expn == 0 && frac == 0)) return uf;  
    6.     if (expn) {  
    7.         expn++;  
    8.     } else 
    9.         frac <<= 1;  
    10.     return (sign) | (expn << 23) | (frac);  
    11. }  

      首先检测是否为-0;然后看如果不是特殊数字的话,就将指数自增;如果是特殊数字(需要考虑的特殊数字只有指数是0的情况下需要单独进行考虑),对于最大的非规约数,则要增加指数并改变自身(因为此时由非归约数转化为了归约数),对于其他情形,则只需要左移一位,如果发生了进位,则此时正好变为规约表示,前面省略了一个1;如果没发生进位,则代表尾数部分放大二倍,而整个数字就只有尾数部分。

      在需要进行舍尾操作时,采取四舍六入五六双的Bankers' Round规则。

  • 相关阅读:
    HP LoadRunner11.0下载地址(官网地址)
    出现500错误[code=CANT_CONNECT_LOOPBACK] Cannot connect due to potential loopback problems的解决方法
    一个数据库的所见即所得的好工具
    强制释放windows被占用的端口
    测试管理工具QC第二篇QC安装步骤(史上最详细的图解过程)第二篇server2003的环境设置
    NAT连接虚拟机和主机的通信(静态IP配置完整图解,测试通过可用)附vmware tools的安装(未完待续)第一篇
    QC插件大集合
    winmail搭建自己的邮件服务器第二篇(详细图解,测试通过)
    QTP基本脚本设计(第一部分)
    winmail搭建自己的邮件服务器第一篇(附详细图解测试通过可用)
  • 原文地址:https://www.cnblogs.com/shawnChi/p/5952979.html
Copyright © 2011-2022 走看看