Unicode
計算行業標準,對大多數世界的書寫系統中表達的文本進行一致的編碼,表示和處理 / 維基百科,自由的 encyclopedia
Unicode,全稱為Unicode標準(The Unicode Standard),其官方機構Unicode聯盟所用的中文名稱為統一碼[1],又譯作萬國碼、統一字元碼、統一字元編碼[2],是資訊科技領域的業界標準,其整理、編碼了世界上大部分的文字系統,使得電腦能以通用劃一的字元集來處理和顯示文字,不但減輕在不同編碼系統間切換和轉換的困擾,更提供了一種跨平臺的亂碼問題解決方案。Unicode由非營利機構Unicode聯盟(Unicode Consortium)負責維護,該機構致力讓Unicode標準取代既有的字元編碼方案,因為既有方案編碼空間有限,亦不適用於多語環境。
萬國碼標誌 | |
別名 | 通用字元集 (UCS) |
---|---|
語言 | 全球性 |
標準 | 萬國碼標準 |
編碼格式 | UTF-8, UTF-16, GB18030 不常用: UTF-32, BOCU, SCSU 已淘汰: UTF-7 |
前用 | ISO/IEC 8859, 其他 |
Unicode伴隨著通用字元集ISO/IEC 10646的標準而發展,同時也以書本的形式[3]對外發表。Unicode至今仍在不斷增修,每個新版本都加入更多新的字元。目前最新的版本為2022年9月公布的15.0.0[4],已經收錄超過14萬個字元(第十萬個字元在2005年獲採納)。Unicode標準不僅僅只是為文字指定代碼。除了涵蓋視覺上的字形、編碼方法、標準的字元編碼資料外,聯盟官方出版品還包含了關於各書寫系統的細節及呈現方式,如規格化的準則、拆分、定序、繪製、雙向文字顯示、書寫方向、字元特性(如大小寫字母)等等。此外還提供參考資料和視覺圖像,以幫助開發者和設計師正確應用標準。
Unicode備受認可,為ISO納入國際標準,成為通用字元集,即 ISO/IEC 10646。Unicode相容ISO/IEC 10646,能完整對應各個版本標準[5][6]。Unicode廣泛應用於電腦軟體的國際化與在地化過程。很多新科技,如可延伸標示語言(Extensible Markup Language,簡稱:XML)、Java程式語言以及現代作業系統,都採用Unicode來編碼。Unicode最普遍的編碼格式是和ASCII相容的UTF-8,以及和UCS-2相容的UTF-16。