热门问题
时间线
聊天
视角
中日韓統一表意文字
一組中文,日文和韓文統一碼區段符號 来自维基百科,自由的百科全书
Remove ads
中日韓統一表意文字(英語:CJK Unified Ideograph),又稱統漢碼、統一漢字集(英語:Unihan),是指在ISO 10646與統一碼標準中經過「漢字等同」處理的漢字。[2]漢字等同(英語:Han unification[3])是指將中文、日文、韓文、越南文、壯文、琉球文等書寫系統共通的漢字賦予相同編碼的做法;[5]被合併編碼的漢字,往往起源相同、本義相通、形狀大同小異。[6]整理出來的中日韓統一表意文字,由統一碼聯盟建置的Unihan資料庫維護。
Remove ads
涵蓋範圍
名稱
除了「中日韓統一表意文字」,CJK Unified Ideograph 還有以下中文譯名:
除了「漢字等同」,Han Unification 又譯為:
- 漢字認同
- 漢字統一
- 漢字統合
歷史
1978年,日本產業規格制訂了基於ISO/IEC 2022的JIS C 6226,為全世界最早的漢字編碼,包含6349漢字。1980年代,臺灣(中文資訊交換碼、中文標準交換碼)、中國大陸(GB 2312)、韓國(KS C 5601)開始制訂了各自的編碼規範。這些規範彼此之間並無連繫。若要在一份檔案中同時使用,則要以跳脫字元的方式來交換。
1980年,日本的國立國會圖書館的高橋德太郎以書目學的觀點指出,統一的東亞漢字編碼系統有必要。同年,臺灣制定了三位元組的中文資訊交換碼,這是第一款期望可以一致處理中國、日本、韓國漢字的編碼。之後,美國的國會圖書館採用了此標準,並另外命名為東亞編碼字元(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。
1984年,ISO的文字編碼委員會(ISO/TC 97/SC2)決議制訂出一套編碼規格(ISO 10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC 97/SC 2/WG 2)。這編碼一開始的構想是採用16位元,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對,並在1989年提出各國漢字統合集合(Han Character Collection,HCC)的構想。
1990年完成了ISO 10646的初版草案(DIS 10646)。漢字用32位元表示,並將各國的漢字編碼原封不動加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後能順利討論漢字編碼及處理有關方針,並呼籲WG 2特別設置了中日韓聯合研究小組(CJK-JRG,Joint Research Group,為表意文字小組的前身),以持續討論。
另一方面,1987年,施樂的Joe Becker和Lee Collins開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為16位元。於是,中、日、韓的漢字統合了。基本方針以16位元處理所有文字。1990年完成了基於此方針的最終草案。1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓類似的漢字使用約二萬多字。為了未來擴充,保留了三萬漢字以供其它用途。
1991年,各國希望能以一致的方式處理文字,否決了ISO/IEC 10646的初版草案。基於中國與統一碼聯盟的提議,ISO 10646和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、製作ISO 10646和統一碼的統一漢字編碼。年尾完成了Unified Repertoire and Ordering(URO)。1992年,URO加入ISO 10646的第二版,但發現一些缺失,之後修正。
1993年5月正式制訂最初的「中日韓統一表意文字」位於U+4E00–U+9FFF,共20902字;不過漢字「〇」(U+3007)誤當數字放入符號和標點區。一個月後制訂了統一碼1.1。
1999年,依據ISO/IEC 10646的第17修正案(Amendment 17)訂定擴充區A,於U+3400–U+4DFF加入6582漢字。
2001年,依據ISO/IEC 10646-2新增擴充區B,於U+20000–U+2A6FF有42711漢字;但短時間內增加大量漢字,產生許多重複字形。
2005年,依據ISO/IEC 10646:2003的第一修正案(Amendment 1),基本多文種平面增加U+9FA6–U+9FBB,共22漢字。
2009年,統一碼5.2擴充區C增加U+2A700–U+2B734,基本多文種平面增加U+9FC4–U+9FCB。
2010年,統一碼6.0擴充區D增加U+2B740–U+2B81F。
2012年,統一碼7.0基本多文種平面增加1漢字:U+9FCC。
2015年,統一碼8.0擴充區E增加U+2B820–U+2CEAF,基本多文種平面增加U+9FCD–U+9FD5。
2017年,統一碼10.0擴充區F增加U+2CEB0–U+2EBEF,基本多文種平面增加U+9FD6–U+9FEA。
2018年,統一碼11.0基本多文種平面末尾增加5漢字:U+9FEB–U+9FEF。
2020年,統一碼13.0增加4969漢字,其中4939字位於第三平面的擴充區G,碼位爲U+30000–U+3134A。同時,亦在基本區增加13字:U+9FF0–U+9FFC,在擴充A區增加10字:U+4DB6–U+4DBF,在擴充B區增加7字:U+2A6D7–U+2A6DD。
2021年,統一碼14.0基本多文種平面末尾增加3漢字:U+9FFC–U+9FFF。同時,亦在擴充B區增加2字:U+2A6DE–U+2A6DF,在擴充C區增加4字:U+2B735–U+2B738。
2022年,統一碼15.0增加4193漢字,其中4192字位於第三平面的擴充區H,碼位爲U+31350–U+323AF。同時,亦在擴充C區增加7字:U+2B739。
2023年,統一碼15.1增加622漢字,位於第二平面的擴充區I,碼位爲U+2EBF0 - U+2EE5D。
另外,第三平面的U+38000至U+3AB9F預計放置篆書,相關提案已經提交。按路線圖,該平面還會收錄金文、簡帛文、陶文、鳥蟲書等[11]。
Remove ads
版本
Remove ads
成員機構
收字來源
最初期共20902統一漢字,範圍為U+4E00–U+9FA5,收字來源包括以下字集[22]:
其中,統一碼技術委員會源(U源)指,並非由表意文字小組所遞交的參考字集,而是委員會額外遞交作參考的字集標準。並且此來源的字集不適用原字集分離原則(見稍後)。
Remove ads
漢字等同
統漢字資料庫
批評
已統一漢字
未統一漢字
技術問題
註釋
參考文獻
外部連結
參見
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads