UTF-32

UTF-32是32位Unicode转换格式（Unicode Transformation Formats，或UTF）的缩写。UTF-32是一种用于编码Unicode的协定，该协定使用32位比特对每个Unicode码位进行编码（但前导比特数必须为零，故仅能表示2³¹个Unicode码位）。与其他可变长度的Unicode转换格式（UTF）相比，UTF-32编码长度是固定的，UTF-32中的每个32位值代表一个Unicode码位，并且与该码位的数值完全一致。

UTF-32的主要优点是可以直接由Unicode码位来索引。在编码序列中查找第N个编码是一个常数时间操作。相比之下，其他可变长度编码需要进行循序存取操作才能在编码序列中找到第N个编码。这使得在计算机程序设计中，编码序列中的字符位置可以用一个整数来表示，整数加一即可得到下一个字符的位置，就和ASCII字符串一样简单。

UTF-32的主要缺点是每个码位使用四个字节，空间浪费较多。在大多数文本中，非基本多文种平面的字符非常罕见，这使得UTF-32所需空间接近UTF-16的两倍和UTF-8的四倍（具体取决于文本中ASCII字符的比例）。

尽管每一个码位使用固定长度的位元组看似方便，但UTF-32并不如其它Unicode编码使用广泛。与UTF-8及UTF-16相比，UTF-32更容易遭到截断。即使使用了"定宽"字型，在大多数情况下用UTF-32计算显示字串的宽度也并不比其他编码更加容易。主要原因是，存在著一个字符位置会有多于一种可能的码点（结合字符）或一个码点用多于一个字符位置（如CJK表意字符）。结合符号也意味著，文书编辑者不能将一个码位视同一个编辑上的单位。