热门问题
时间线
聊天
视角
bfloat16格式
来自维基百科,自由的百科全书
Remove ads
bfloat16(英语:brain floating point)是一种计算机数字存储格式,在计算机内存中占用16位,简称BF16。此格式是32位IEEE 754单精度浮点格式的缩短版本,旨在加速机器学习计算。它通过保留8位指数位来保留32位浮点数的范围,但仅支持8位精度,而不是32位浮点数格式的24位有效精度。与标准的IEEE16位浮点数相比,bfloat16有更多的指数位与更少的尾数位,可以用于减少存储需求并提高机器学习算法的计算速度。[1][2]
格式
bfloat16格式具有:
- 符号位:1位
- 指数部分:8位
- 尾数部分:7位 (由于省略了首位必定存在的“1”,实际上为8位)
bfloat16二进制浮点指数使用偏移量二进制表示进行编码,零偏移量为127。因此,为了获得真正的指数,必须从指数字段的值中减去127的偏移量。
参见
参阅
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads