热门问题
时间线
聊天
视角

bfloat16格式

来自维基百科,自由的百科全书

Remove ads

bfloat16(英語:brain floating point)是一種計算機數字存儲格式,在計算機內存中占用16位,簡稱BF16。此格式是32位IEEE 754單精度浮點格式的縮短版本,旨在加速機器學習計算。它通過保留8位指數位來保留32位浮點數的範圍,但僅支持8位精度,而不是32位浮點數格式的24位有效精度。與標準的IEEE16位浮點數相比,bfloat16有更多的指數位與更少的尾數位,可以用於減少存儲需求並提高機器學習算法的計算速度。[1][2]

格式

bfloat16格式具有:

  • 符號位:1位
  • 指數部分:8位
  • 尾數部分:7位 (由於省略了首位必定存在的「1」,實際上為8位)

bfloat16二進制浮點指數使用偏移量二進制表示進行編碼,零偏移量為127。因此,為了獲得真正的指數,必須從指數字段的值中減去127的偏移量。


參見

參閱

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads