Unicode等價性
維基百科,自由的 encyclopedia
Unicode等價性(英語:Unicode equivalence)是為和許多現存的標準能夠相容,Unicode(統一碼)包含了許多特殊字元。在這些字元中,有些在功能上會和其它字元或字元序列等價。因此,Unicode將一些碼位序列定義成相等的。Unicode提供了兩種等價概念:標準等價和相容等價。前者是後者的一個子集。例如,字元n後接着組合字元~標準等價和相容等價於Unicode字元ñ。而合字ff則只有相容等價於兩個f字元。
Unicode正規化(英語:Unicode normalization)是文字正規化的一種形式,是指將彼此等價的序列轉成同一列序。此序列在Unicode標準中稱作正規形式。對於每種等價概念,Unicode又定義兩種形式,一種是完全合成的,一種是完全分解的。因此,最後會有四種形式,其縮寫分別為:NFC、NFD、NFKC、NFKD。對於Unicode的文字處理程式而言,正規化是很重要的。因為它影響了比較、搜尋和排序的意義。