統一碼定序演算法
演算法 / 維基百科,自由的 encyclopedia
統一碼定序演算法(英語:Unicode collation algorithm,縮寫:UCA)是統一碼技術報告 #10 中定義的一種演算法,它是一種可自訂的方法。對任何以統一碼表示的字串文字,不論是使用哪種文字和語言,都可為其生成二進制鍵。這些鍵可以逐位元組且有效地比對,從而可以根據語言規則為他們定序或排序。這個過程中,還提供可以忽略大小寫、重音等的選項。
統一碼技術報告 #10 還定義了預設統一碼定序元素表(英語:Default Unicode Collation Element Table,縮寫:DUCET)。此檔案定義了預設的排列順序。 DUCET 可針對不同語言進行客製化。可以在通用當地數據儲存庫(英語:Common Locale Data Repository,縮寫:CLDR)中找到一些此類自訂。
國際統一碼部件(ICU)中包含了 UCA 的開源實作件。 ICU 支援裁剪,來自 CLDR 的整理裁剪包含在 ICU 中。剪裁效果和許多語言特定的剪裁效果顯示在線上ICU 區域設置瀏覽器中。