zoukankan      html  css  js  c++  java
  • C/C++中浮点数格式学习——以IEEE75432位单精度为例

    这是浮点数的通常表示形式,在IEEE754中,单精度浮点数有如下形式:

    32位单精度

    单精度二进制小数,使用32个比特存储。

    1

    8

    23位长

    S

    Exp

    Fraction

    31

    3023
    偏正值(实际的指数大小+127

    220位编号(从右边开始为0

    S为符号位,Exp为指数字,Fraction为有效数字。 指数部分即使用所谓的偏正值形式表示,偏正值为实际的指数大小与一个固定值(32位的情况是127)的和。采用这种方式表示的目的是简化比较。因为,指数的值可能为正也可能为负,如果采用补码表示的话,全体符号位SExp自身的符号位将导致不能简单的进行大小比较。正因为如此,指数部分通常采用一个无符号的正数值存储。单精度的指数部分是−126+127加上偏移值127,指数值的大小从12540255是特殊值)。浮点小数计算时,指数值减去偏正值将是实际的指数大小。(当指数为0的时候,用非规约数表示,这样做的理由在于,所有的非归约数都比归约数更加接近0,非规约形式的浮点数的指数值是同种情况下规约形式浮点数的指数值再加1。)

    注意通常情况下,23位尾数部分前边自动省略了一个整数部分1,也就是说 num = -1^S * 2^(Exp+127) * (1.xxxxxxx……)    其中xxxx表示尾数部分。

    此外有一些特别的约定:

    单精度浮点数各种极值情况:

    类别

    正负号

    实际指数

    有偏移指数

    指数域

    尾数域

    数值

    0

    -127

    0

    0000 0000

    000 0000 0000 0000 0000 0000

    0.0

    负零

    1

    -127

    0

    0000 0000

    000 0000 0000 0000 0000 0000

    −0.0

    1

    0

    0

    127

    0111 1111

    000 0000 0000 0000 0000 0000

    1.0

    -1

    1

    0

    127

    0111 1111

    000 0000 0000 0000 0000 0000

    −1.0

    最小的非规约数

    *

    -126

    0

    0000 0000

    000 0000 0000 0000 0000 0001

    ±2−23 × 2−126 = ±2−149 ≈ ±1.4×10-45

    中间大小的非规约数

    *

    -126

    0

    0000 0000

    100 0000 0000 0000 0000 0000

    ±2−1 × 2−126 = ±2−127 ≈ ±5.88×10-39

    最大的非规约数

    *

    -126

    0

    0000 0000

    111 1111 1111 1111 1111 1111

    ±(1−2−23) × 2−126 ≈ ±1.18×10-38

    最小的规约数

    *

    -126

    1

    0000 0001

    000 0000 0000 0000 0000 0000

    ±2−126 ≈ ±1.18×10-38

    最大的规约数

    *

    127

    254

    1111 1110

    111 1111 1111 1111 1111 1111

    ±(2−2−23) × 2127 ≈ ±3.4×1038

    正无穷

    0

    128

    255

    1111 1111

    000 0000 0000 0000 0000 0000

    +∞

    负无穷

    1

    128

    255

    1111 1111

    000 0000 0000 0000 0000 0000

    −∞

    NaN

    *

    128

    255

    1111 1111

    non zero

    NaN

    * 符号位可以为01 .

    这里边比较值得一提的,一个是NaN的设置,还有一个是指数为0情况下几种数字的关系。

    1. 在NaN中,尾数必须要非零。

    2. 中间大小的非归约数的二倍正好是最小的归约数,同时也是最大的非规约数;因此,在对浮点数进行乘二操作时,可以依照如下代码:

    1. unsigned float_twice(unsigned uf) {  
    2.     unsigned expn = (uf >> 23) & 0xFF;  
    3.     unsigned sign = uf & 0x80000000;  
    4.     unsigned frac = uf & 0x007FFFFF;  
    5.     if (expn == 255 || (expn == 0 && frac == 0)) return uf;  
    6.     if (expn) {  
    7.         expn++;  
    8.     } else 
    9.         frac <<= 1;  
    10.     return (sign) | (expn << 23) | (frac);  
    11. }  

      首先检测是否为-0;然后看如果不是特殊数字的话,就将指数自增;如果是特殊数字(需要考虑的特殊数字只有指数是0的情况下需要单独进行考虑),对于最大的非规约数,则要增加指数并改变自身(因为此时由非归约数转化为了归约数),对于其他情形,则只需要左移一位,如果发生了进位,则此时正好变为规约表示,前面省略了一个1;如果没发生进位,则代表尾数部分放大二倍,而整个数字就只有尾数部分。

      在需要进行舍尾操作时,采取四舍六入五六双的Bankers' Round规则。

  • 相关阅读:
    为什么数据库连接很消耗资源 转
    在Eclipse中编写servlet时出现"The import javax.servlet cannot be resolved" 问题解决办法
    multipart/form-data post 方法提交表单,后台获取不到数据
    java 数据库查询Date类型字段 没有了时分秒 全为 00 的解决办法
    Eclipse/myEclipse 代码提示/自动提示/自动完成设置(转)
    PL/SQL破解方法(不需要注册码)
    Java
    tomcat开发环境配置
    文件操作权限
    Java版office文档在线预览
  • 原文地址:https://www.cnblogs.com/shawnChi/p/5952979.html
Copyright © 2011-2022 走看看