双-单-半精度浮点数的细节 - 走看看

zoukankan html css js c++ java

双-单-半精度浮点数的细节
浮点数也就是小数点浮动的数，但是因为在计算机中使二进制表示，不同长度有不同的精度。三种常用的浮点数的格式：半精度（float16）、单精度（float32）、双精度（float64）
Value=sign*exponent*fraction

数值=符号位*指数位*小数位

符号位表示正负

指数位表示次方

小数位表示精度
区别在于指数位和小数位的长度的差异；这样近似值其实也就是有理数的表示方法；

半精度表示π，最大值和最小值：

单精度表示π，最大值和最小值：

双精度表示π，最大值和最小值：

Bfloat16

最近还诞生了一种Bfloat16的计数方式，使用和半精度相同的位数，实现了保持和单精度一样的指数位也就是8位指数位，可以表示和单精度相同的数字范围，但是牺牲了小数位也就是精度。

参考文献：

http://evanw.github.io/float-toy/

https://en.wikichip.org/wiki/brain_floating-point_format

<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">
查看全文

相关阅读:
Learning to Compare: Relation Network for Few-Shot Learning 论文笔记
 修改python import模块中的变量
 roslaunch保存的log文件没有打印的ERROR信息
 python json demo
vscode 1.32.x按下鼠标左键无法拖曳选择，而旧一点的版本1.30.2可以
 java-ee--------jdbc
集合
 关键字
 java面向对象
 数组

原文地址：https://www.cnblogs.com/kongchung/p/12535798.html

Copyright © 2011-2022 走看看