bfloat16格式

bfloat16（英語：brain floating point）是一種計算機數字存儲格式，在計算機內存中占用16位，簡稱BF16。此格式是32位IEEE 754單精度浮點格式的縮短版本，旨在加速機器學習計算。它通過保留8位指數位來保留32位浮點數的範圍，但僅支持8位精度，而不是32位浮點數格式的24位有效精度。與標準的IEEE16位浮點數相比，bfloat16有更多的指數位與更少的尾數位，可以用於減少存儲需求並提高機器學習算法的計算速度。^[1]^[2]