中日韩统一表意文字 - Wikiwand
For faster navigation, this Iframe is preloading the Wikiwand page for 中日韩统一表意文字.

中日韩统一表意文字

维基百科,自由的百科全书

注意:本页面含有Unihan新版用字。有关字符可能会错误显示,详见Unicode扩展汉字

中日韩统一表意文字(英语:CJK Unified Ideographs),也称统一汉字统汉码(英语:Unihan),目的是要把分别来自中文日文韩文越南文壮文琉球文中,起源相同、本义相同、形状一样或稍异的表意文字,在ISO 10646万国码标准赋予相同编码

所谓“起源相同、本义相同、形状一样或稍异的表意文字”,主要为汉字,包括繁体字简化字日本汉字漢字かんじ)、韩国汉字漢字한자)、琉球汉字漢字ハンジ)、越南的喃字𡨸喃Chữ Nôm)与儒字𡨸儒Chữ Nho)、方块壮字𭨡sawgun)。

历史

1978年,日本基于ISO 2022,制订了全世界最早的汉字编码JIS C 6226。1980年代,中国大陆、台湾、韩国则各自制订了自己的规范。这些规范彼此之间并无关系。若要在一份文件中同时使用,则要以脱序字符的方式来交换。

1980年,日本的国立国会图书馆的高桥德太郎以图书学的观点指出,一个统一的东亚汉字编码系统是有必要的。同年,台湾制定了三字节的中文信息交换码。偶然的是,这是第一个期望可以一致处理中国、日本、韩国汉字的编码。之后,美国的国会图书馆采用了此规格,并另外命名为东亚编码字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。

1984年,ISO的文字编码委员会(ISO/TC 97/SC2)决议制订出一套编码规格(ISO 10646),是以交换文字集的方式来统一处理世界的文字。并成立了工作小组(ISO/TC 97/SC 2/ WG 2)。这个编码一开始的构想是采用16位,而对于日本及中国等国的汉字编码则原封不动地加入。但若如此,中国当时所制订的编码都无法加入,因而反对。并于1989年,提出了各国的汉字统合集合(Han Character Collection,HCC)的构想。

1990年完成了ISO 10646的初版草案(DIS 10646)。汉字使用32位来表示。并将各国的汉字编码原封不动地加入。但中国认为,若各国各自为汉字编码,将不利于统一处理汉字,因而反对。为了日后关于汉字编码的讨论及方针能顺利进行,并呼吁WG 2特别设置了中日韩联合研究小组(CJK-JRG,Joint Research Group,为表意文字小组的前身),以持续讨论。

另一方面,1987年,施乐的Joe Becker和Lee Collins开发了统合处理全世界所有文字的统一码。1989年发表了统一码概要。基本为16位。于是,中、日、韩文字统合了。基本方针为以16位处理所有文字。 1990年,完成了基于此方针的最终草案。隔年1991年1月,大致同意此方案的企业成立了统一码联盟。中、日、韩中类似的汉字使用约二万多个字。为了未来扩展,保留了三万个汉字以供其它用途。

1991年,各国希望能以一致的方式处理文字,如统一码这般,因而否决了ISO/IEC 10646的初版草案。基于中国与统一码联盟的提议,ISO 10646和统一码成立了中日韩联合研究小组。中日韩联合研究小组将基于各国的汉字编码,独自定义定规范、制作ISO 10646和统一码的统一汉字编码。年尾,完成了Unified Repertoire and Ordering(URO)。

1992年,URO加入ISO 10646的第二版。但是,发现了一些缺失,之后进行了修正。

1993年5月,正式制订最初的中日韩统一表意文字,位于U+4E00–U+9FFF这个区域,共20,902个字。还有一个汉字“〇”(码位U+3007),被当成数字放入了符号和标点区。一个月后,制订了统一码1.1。

1999年,依据ISO/IEC 10646的第17个修正案(Amendment 17)订定扩展区A,于U+3400–U+4DFF加入6,582个字。

2001年,依据ISO/IEC 10646-2,新增扩展区B,包含42,711个汉字。位于U+20000–U+2A6FF。但因在短时间内增加了大量的汉字,导致产生了许多重复的字形。

2005年,依据ISO/IEC 10646:2003的第1个修正案(Amendment 1),基本多文种平面增加U+9FA6-U+9FBB,共22个汉字。

2009年,统一码5.2扩展区C增加U+2A700–U+2B734,基本多文种平面增加U+9FC4–U+9FCB。

2010年,统一码6.0扩展区D增加U+2B740–U+2B81F。

2012年,统一码7.0基本多文种平面增加1个汉字:U+9FCC。

2015年,统一码8.0扩展区E增加U+2B820–U+2CEAF,基本多文种平面增加U+9FCD–U+9FD5。

2017年,统一码10.0扩展区F增加U+2CEB0–U+2EBEF,基本多文种平面增加U+9FD6–U+9FEA。

2018年,统一码11.0基本多文种平面末尾增加5个汉字:U+9FEB-U+9FEF,其中前三个是新命名的化学元素用字,后两字来自日本。

此外,位于第三平面的扩展区G已经获接受,将于未来公布,码位为U+30000-U+31389。

另外,第三平面的U+31400-U+33D1F预计放置小篆,U+33E00-U+355FF预计放置甲骨文,相关提案已经提交。按路线图,该平面还会收录金文、简帛文、陶文、鸟虫书等[1]

版本

ISO 10646版本 Unicode版本 新增 置放平面 字数 累计字数
1993 1.0 中日韩统一表意文字 基本多文种平面(BMP,Basic Multilingual Plane) 20,902 20,915
1个汉字(U+3007, 中日韩符号和标点(CJK Symbols and Punctuation) 1
位于“兼容表意文字区”中但实则独一的汉字(U+FA0E、U+FA0F、U+FA11、U+FA13、U+FA14、U+FA1F、U+FA21、U+FA23、U+FA24、U+FA27、U+FA28、U+FA29[注 1] 基本多文种平面 12
2000 3.0 中日韩统一表意文字扩展A区 基本多文种平面 6,582 27,497
2001 3.1 中日韩统一表意文字扩展B区 第二辅助平面(SIP,Supplementary Ideographic Plane) 42,711 70,208
2003第一修订版 4.1 HKSCS-2004中未加入ISO 10646的汉字(U+9FA6-U+9FB3,)和GB 18030-2000中未加入ISO 10646的印刷業常用的偏旁和字形部件(U+9FB4-U+9FBB, 基本多文种平面 22 70,230
2003第四修订版 5.1 7个日语汉字(U+9FBC-U+9FC2,龿),U+4039䀹拆分为U+4039和U+9FC3 基本多文种平面 8 70,238
2003第五修订版 5.2 中日韩统一表意文字扩展C区 第二辅助平面 4,149 74,395
2003第六修订版 2个日语用汉字(ARIB #47, #95,U+9FC4,U+9FC5)、1个新增汉字(ARIB #93,U+9FC6)、在HKSCS-2004推出后新增的5个香港汉字(U+9FC7-U+9FCB,鿇 基本多文种平面 8
2010 6.0 中日韩统一表意文字扩展D区(2B740-2B81F) 第二辅助平面 222 74,617
2012 6.1 1个汉字(U+9FCC 基本多文种平面 1 74,618
2015 8.0 中日韩统一表意文字扩展E区(2B820-2CEAF) 第二辅助平面 5,762 80,389
“急用汉字”:《通用规范汉字表》余下未收入的3个汉字(U+9FCD-U+9FCF,),1个从U+4CA4()分离出来的字U+9FD0(),5个其他图书用字及化学元素用字(U+9FD1-U+9FD5, 基本多文种平面 9
2017 10.0 中日韩统一表意文字扩展F区(2CEB0-2EBEF) 第二辅助平面 7,473 87,883
21个汉字(U+9FD6-U+9FEA,鿖鿗鿘鿙鿚鿛鿜鿝鿞鿟鿠鿡鿢鿣鿤鿥鿦鿧鿨鿩鿪) 基本多文种平面 21
2018 11.0 5个汉字(U+9FEB-U+9FEF,鿫鿬鿭鿮鿯) 基本多文种平面 5 87,888

成员机构

Unicode 协会

不隶属于任何成员机构组成的国际组织

字源

最初期统一汉字

最初期的统一汉字共20,902字,其范围为:0x4E00—0x9FA5。其字源来自以下字集

类别 来原始码 名称 字数
中国大陆
国标源(G)
G0 GB 2312-80 6,763
G1 GB 12345-90 2,352字(含58个香港字和92个吏读字,不包括和GB 2312重复的字)
G3 GB 7589-87 繁体版本 7,237
G5 GB 7590-87 繁体版本 7,039
G7 现代汉语通用字表 42字(G0, 1, 3, 5, 8未包括的字)
G8 GB 8565.2-89 290字(G0, 1, 3, 5未包括的字)
台湾源(T) T1 CNS 11643-1986第一字面 5,401+9个计量用汉字
T2 CNS 11643-1986第二字面 7,650字
TE CNS 11643-1986第十四字面 6,319+239个中文信息交换码特字+10个施乐字符集(Xerox Character Code Standard,XCCS)特字
日本源(J) J0 JIS X 0208-90 6,335+非汉字1个(仝)[3]
J1 JIS X 0212-90 5,801字
韩国源(K) K0 KS C 5601-87 4,888字(含268个重见字[4]
K1 KS C 5657-91 2,856字
委员会源(U) KS C 5601-1987(当中重复的汉字)
美国国会图书馆之东亚字符编码(East Asia Character Code,简称EACC;标准号ANSI Z39.64-1989)[5]
大五码
中文信息交换码第一字面
GB 12052-89(汉字部分)
JEF(富士通标准)
中国大陆电报码
台湾电报码(CCDC)
施乐中文编码
人名用汉字准用字体表(人名用汉字许容字体表;日本)
IBM选取的日本和韩国表意文字

其中,统一码技术委员会源(U源)是指,并非由表意文字小组所递交的参考字集,而是委员会额外递交作参考的字集标准。并且此来源的字集不适用字源分离原则(见稍后)。

扩展A区

扩展A区包含有6,582个汉字,位置在U+3400—U+4DB5。这6千多个汉字分别从以下字典或字集中获取:

类别 来原始码 名称 字数
中国大陆
国标源(G)
G_KX 康熙字典 5357字(独有1892字)
G_HZ 汉语大字典 5888字(独有339字)
G3 GB 7589-87繁体版本 2391字
G5 GB 7590-87繁体版本 1226字
G7 现代汉语通用字表 120字
GS 新加坡汉字 226字
台湾源(T) T3 CNS 11643-1992第三字面(原本为CNS 11643-1986第十四字面)新加入字符 2178字
T4 CNS 11643-1992第四字面 2917字
T5 CNS 11643-1992第五字面 395字
T6 CNS 11643-1992第六字面 197字
T7 CNS 11643-1992第七字面 133字
TF CNS 11643-1992第十五字面 86字
日本源(J) JA 日本信息技术零售商统一当代表意文字(1993) 574字
韩国源(K) K2 PKS C 5700-1:1994
K3 PKS C 5700-2:1994 1834字
越南源(V) V0 TCVN 5773:1993 138字
V1 TCVN 6056:1995

扩展B区

扩展B区包含有42,711个汉字,位置在U+20000—U+2A6D6。根据IRG N777号文件,这四万多个汉字分别从以下字典或字集中获取:

类别 来原始码 名称 字数
中国大陆
国标源(G)
G_KX 《康熙字典》 18,486个未收录的汉字(包括一个在补遗篇中出现的汉字)
G_HZ 《汉语大字典》 28,914个未收录的汉字
G_CY 辞源 66个未收录的汉字
G_CH 辞海 247个未收录的汉字
G_HC 汉语大词典 553字
G_BK 中国大百科全书 86个未收录的汉字
G_FZ 北大方正排版系统 65个未收录的汉字
G_4K 四库全书 522个未收录的汉字
香港源(H) H 香港增补字符集(HKSCS) 1,081个未收录的汉字
台湾源(T) T4 CNS 11643-1992第四字面 3,408个未收录的汉字
T5 CNS 11643-1992第五字面 8,111个未收录的汉字
T6 CNS 11643-1992第六字面 5,934个未收录的汉字
T7 CNS 11643-1992第七字面 6,299个未收录的汉字
TF CNS 11643-1992第十五字面 6,401个未收录的汉字
日本源(J) J3 JIS X 0213:2000, level 3 25个未收录的汉字
J3A JIS X 0213:2004, level 3 1个未收录的汉字
J4 JIS X 0213:2000, level 4 277个未收录的汉字
韩国源(K) K4 PKS 5700-3:1998 166个未收录的汉字
朝鲜源(KP) KP0 KPS 9566-97
KP1 KPS 10721-2000 5,766个未收录的汉字
越南源(V) V2 VHN 01:1998 2,290个未收录的汉字
V3 VHN 02:1998 425个未收录的汉字

这些汉字中重复的汉字有不少,所以经过整理之后,实际总数只有42,711个汉字。

另外,在U+2F800—U+2FA1D的位置,放了542个来自台湾的兼容汉字。

Unicode 4.1汉字

为使Unicode向下兼容GB 18030和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,在Unicode 4.1版中引进了14个香港增补字符集的用字和8个GB 18030用字。该22字被编于U+9FA6—U+9FBB的位置。

另外,在U+FA70—U+FAD9的位置,放了106个来自北朝鲜的兼容汉字。

Unicode 5.1汉字

在2008年4月推出的Unicode 5.1版本,收录7个由日本Adobe公司递交的日语汉字(U+9FBC-U+9FC2)[6],和鿃(大字加两个字,就如陕西省的陝字换上目字旁)(U+9FC3)。本来Unicode 3.0收录了目字旁加夾(大字加两个字)字的“䀹”(U+4039),目字旁加㚒字的字,与“䀹”无论在意义和发音均不相同,故魏安(Andrew West)和井作恒(John H. Jenkins)申请追加此字[7]

扩展C区

于2009年10月发布的Unicode 5.2涵盖了扩展C区,共收录4,149个汉字,包括来自中国大陆澳门台湾日本越南等尚未被编码的汉字。位置在U+2A700—U+2B734。这四千多个汉字分别从以下字典或字集中获取:

类别 来原始码 名称 字数
中国大陆
国标源(G)
G_BK 中国大百科全书 74字
G_FZ 北京大学方正排版系统 1个未收录的汉字
G_HZ 《汉语大字典》 1个未收录的汉字
G_HC 《汉语大词典》 14个未收录的汉字
G_GH 《古代汉语词典》 50字
G_GJZ 商务印书馆用字 61字
G_XC 现代汉语词典 25字
G_CH 《辞海》 264个未收录的汉字
G_KX 《康熙字典》及补遗 6个未收录的汉字
G_CYY 中国测绘科学研究院用字 55字
G_ZFY 《汉语方言大辞典》 202字
G_ZJW 《殷周金文集成引得》 366字
台湾源(T) TC CNS 11643-1992第12字面 634字
TD CNS 11643-1992第13字面 767字
TE CNS 11643-1992第14字面 350字
澳门源 MAC 澳门资讯系统字集(Colectânea dos Caracteres Chineses dos Sistemas Informáticos de Macau) 16字
日本源(J) JK 日本国字集(Japanese KOKUJI Collection) 367字
韩国源(K) K5 韩国表意文字小组汉字集第五版(2001,Korean IRG Hanja Character Set 5th Edition: 2001) 404字(当中主要包含古代字例)
朝鲜源(KP) KP1 KPS 10721:2003 5357字(独有1892字)
越南源(V) V4 《喃字词典》(Từ điển chữ Nôm)[阮光红(Nguyễn Quang Hồng),2006]
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)
委员会源(U) ABC Chinese-English Dictionary(德范克,John DeFrancis等,第二版(1998),火奴鲁鲁:夏威夷大学出版社)
耶稣基督后期圣徒教会香港分会用字
Mathews' Chinese-English Dictionary(Robert H. Mathews(1975),剑桥:哈佛大学出版社)
宋本《广韵
《中国鸟类系统检索》(郑作新等,北京:科学出版社,2000)
段玉裁说文解字注

扩展D区

扩展D区包含的都是所谓的“急用汉字”,合共222个新汉字,于2010年下半年发布的Unicode 6.0中,编码范围为U+2B740至U+2B81F(实际有字符为U+2B740至U+2B81D)。

扩展D区原本计划放置扩展C区未收录的16,000多个汉字,但在2007年5月,台湾撤消了6,545个第二部分字集内私用汉字,不再使用字,原因是那些人名用字的拥有人或已去世或已移居外地[8],此后扩展D区缩减到大约10,000字左右[9]。由于各种阻碍,协议先把数量较少,又急切要收录的汉字提交出来,就是“急用汉字”,以便和统一码6.0.0版一起发表。提出的急用汉字只有二百二十二字(本来有二百二十三字,但日本撤回其中一字)。现在文字小组把第二部分字集延后到扩展E区。

类别 来原始码 名称 字数
中国大陆
国标源(G)
G_CH 《辞海》 1字
G_IDC 公安部身份证系统人名和地名用字 31字
G_XC 《现代汉语词典》 4字
G_ZH 中华字海 39字
台湾源(T) TB CNS 11643-2007第11平面24字(教育部闽客方言用字) 24字
日本源(J) JH 通用电子情报交换环境整备计划(汎用電子情報交換環境整備プログラム日本经济产业省提出的人名和地名用字) 108字
委员会源(U) Adobe-Japan1-5和Adobe-CNS1-5字体里的异体字 15字

扩展E区

扩展E区亦在2015年6月17日的Unicode 8.0中发布,放置于编码范围U+2B820-U+2CEAF。

扩展E区本应包含扩展D区未收录的10000多个汉字,但在2008年11月,中国大陆以“难以逐个找证据”为理由,撤销了3215个汉字[10],这些汉字主要用于地名、人名、姓氏,亦有数百个《中国大百科全书》中的文字。这是继台湾撤销6545字之后的又一次大规模撤销。之后又经过长时间的检查处理,E区最终定稿,共有5762字[11]
这些汉字来源如下:

类别 来源代码 名称 字数
中国大陆
国标源(G)
G_BK 中国大百科全书 15字
G_CH 《辞海》 112字
G_CY 《辞源》 3字
G_CYY 中国测绘科学院用字(地名用字) 98字
G_DZ 地质出版社用字 1字
G_GH 《古代汉语词典》 176字
G_HC 《汉语大词典》 7字
G_IDC 公安部身份证系统人名和地名用字 36字
G_JZ 商务印书馆用字 147字
G_KX 康熙字典 22字
G_RM 人民日报用字 3字
G_WZ 汉语大词典出版社用字 12字
G_XC 《现代汉语词典》 57字
G_XH 新华字典 4字
G_ZFY 《汉语方言大辞典》 712字
G_ZJW 《殷周金文集成引得》 1410字
台湾源(T) TC CNS 11643-1992第12平面323字(台湾人名用字) 323字
TD CNS 11643-1992第13平面595字(台湾人名用字) 595字
TE CNS 11643-1992第14平面339字(台湾人名用字) 339字
日本源(J) JK 日本国字集 415字
澳门源(M) MAC 澳门资讯系统字集 48字
委员会源(U) UTC 从各处收集到的未收录汉字 227字
越南源(V) V4 《喃字词典》(Từ điển chữ Nôm)[阮光红(Nguyễn Quang Hồng),2006] 1028字
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)

急用汉字

“急用汉字”是扩展E区整理后期,各地新发现并急于使用,又等不及放入扩展F区的字;和扩展E区一起收入 Unicode 8.0,位置在 U+9FCD - U+9FD5;当中中国大陆在此处申请收入三字,连同扩展E区的字,通用规范汉字表的8105字至此全部收入。

扩展F区

扩展F区在2017年6月20日的Unicode 10.0中发布,编码范围为U+2CEB0--U+2EBEF。
扩展F区来源于新提交的一批汉字,主要包括一千多个方块壮字及数千个佛经、古籍中的用字以及日本户籍用字,共有7473字。
这些汉字的来源如下:

类别 来源代码 名称 字数
中国大陆
国标源(G)
G_CY 《辞源》 122字
G_FC 现代汉语规范词典 27字
G_IDC 公安部身份证用字 1字
G_LGYJ 《壮族嘹歌研究》 1字
G_OCD 《牛津英汉汉英词典》 2字
G_PGLG 《壮族民歌文化丛书·平果嘹歌》 70字
G_XHZ 《新华大字典》 51字
G_Z 《古壮字字典》 995字
G_ZJW 《殷周金文集成引得》 33字
G_ZYS 《壮族人民的文化遗产——方块壮字》《中国民族古文字研究》 2字
日本源(J) JMJ 日本文字信息基础工程 1645字
韩国源(K) KC 韩国历史信息中心 1793字
澳门源(M) MAC 澳门资讯系统字集 22字
大藏经研究组(SAT) USAT 大正新修大藏经 2884字
委员会源(U) UTC 从各处收集到的未收录汉字 1字

认同原则与字源分离原则

表意文字认同原则(Han Unification Rule,又称表意文字统合原则)与字源分离原则(Source Separation Rule,又称原规格分离原则),是两个对立的原则,它们是Unicode整理中日韩统一表意文字的基础。

东亚各国字形多有微妙的差异。如“房”字的第一笔,韩国传统汉字字形、台湾教育部标准字体作撇“”;香港教育参考字形、中国大陆规范作点“”;日本标准作横“”。又如“次”字的左旁,韩国采用传统字形,首笔为横,次笔为挑;台湾教育部作两横;大陆、日本、香港等则作“冫”(俗称两点水)。这种程度的差异,理想上是整并为一个字为佳。否则,要是凡异体字都收进不同码位里,Unicode收录的汉字就会过于臃肿,用户搜索时也会因异体问题而找不到想要的结果。

然而,从之前各种受挫之文字整并计划的经验得知,集成字集与现行通用字集(Big5国标码)等无法一一对应,是推行集成字集的最大阻碍。例如,日本的JIS标准同时收录了“剣”字与“劍”字,原本JIS文件里这两个字可以并存,但采用集成字集后反而变成同一个字,会造成使用上的困扰。而且,如果将多个不同地区字形合并,会影响阅读者,令用户不习惯并非以往所见字形;更有可能引致阅读者因习惯而书写不属于自己地区的字形(或地区性的异体字)。

于是,表意文字认同原则与字源分离原则就应运而生。

表意文字认同原则下,Unicode“只对(Character),而不对字形(Glyph)”编码,会把同一字的不同字形(即异体字)合并。好像上述的“次”字,在Unicode里会整并成一个码。又例如不同地区而有不同写法的部首,如“(中国大陆规范、日本新字体)、(港台旧字形、韩国、日本旧字体)、台湾教育部)”、“(中国大陆规范、台湾教育部)、(日本新字体)、(日本旧字体、韩国、港台旧字形)”、“(中国大陆、港台新字形)、(旧字形)”等,会合并编码。这些部首的写法差异就会交由字体处理。比如说,使用依中国大陆汉字标准《印刷通用汉字字形表》的字体下(如中易宋体微软雅黑体)便会出现“”;使用台湾教育部标准字体(如微软正黑体新版细明体,但旧版细明体[注 2])就会出现“”等字形。这大大解决了因地区而异之部首写法。

至于字源分离原则是指,在上述所列出之各种字源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。比如“房”字,各地字集都没有分别编码,就只编进一个码位,部首第一笔的写法交由字体处理。然而,“戶”、“户”、“戸”这三个字,在一些地区标准里是分别编码的,Unicode则以三个码位来分别收录它们。

基于上述运作,Unicode能大幅减少收录汉字字数,同时让地区编码过渡至Unicode时,字集里的字符不会有流失。但是,字源分离原则破坏了Unicode“只对字,而不对字形”编码之原则,使某些汉字获得两个或多个编码,亦遭受不少批评。

后来的一些重复汉字会使用“兼容区”提供暂存编码,可通过归一化normalization)步骤移除。一般的汉字输入法,以及多数汉字字体,也不支持兼容区字符。

另外,字源分离原则只适用于最初Unified Repertoire and Ordering(URO)的20,902字,换言之,由“扩展区A”开始就不再适用。原因是个别地区提交了不少仅有十分轻微差异的字样,比如台湾异体字字典里的各种异体,要求Unicode分别编码。然而,那些字样所建基的地区编码,并非该地区的通用编码,例如是中文标准交换码(台湾实际通行的编码是Big5码)。若Unicode全面采纳,将会令Unicode对异体字的处理更混乱。

今天,异体字选择器(Variation Sequence)以及Adobe常用的CID字体等技术,已容许在一个Unicode编码里收录和调用两个或多个汉字字样,字源分离原则在今天已成为过时技术的副产品。

起源不同原则

留意的是,可以整并的字只限异体字。如果有些汉字,它的音、义根本不一样,是两个不相同的字,即使它们外形相近,写法差异比另一些整并的字少,但仍不能合并。这规则称为起源不同原则(Noncognate Rule)。

举例说:“土”和“士”虽然形似,却是两个不同的字,我们不可以整并它们。然而,日本、韩国、大陆、香港等地的“”字,与台湾教育部的“”字,两者顶部分别是“土”和“士”,但它们音义全同,是同一字的异体,于是就能够整并。

其他起源不同的例子还有“胄”和“胄”,“汨”和“汩”,“陝”与“陜”等。

学界批评

中文文字学学界对Unicode的字源分离原则有不少批评,尤其是它令同一个异体部件时而分离,时而合并,在日常使用层面引伸了许多问题。举例说,“”和“”、“”和“”都在正常区域中作分离编码,获得两个码位;“晴”、“靖”、“精”虽也获两个码位,但其中一个是在兼容区中,日常难以应用;“请”、“情”、“蜻”、“静”更只有一个码位。或例如,“”和“”、“”和“”是被整并的,可是“”和“”却分离作两个码位。Unicode的做法,没有把含有相同异体部件的字全都合并,也没有把它们全都分离,结果经常导致字形不一致,或者用户无法选择他希望使用的字形[12]

其他汉字使用地区也有类似声音。例如“”和“”两个偏旁,前者为“戔”的大陆简化字,后者为“戔”的日本略字,在“”和“”、“”和“”、“”和“”等组合里,就整并起来。可是碰到“”和“”,却不统合,分列U+685F与U+6808两个码位中。这种情况被日本学者指为Unicode的矛盾[13]

事实上,由于在“中日韩统一表意文字”的不同区域里,Unicode本身也使用了不一致的并分尺度,因此,早期的异体字时常获分配正常码位,后来常常只有兼容区的暂存编码,再后来则不时被直接整并并交由异体字选择器处理。若不修正或更改早期的编码,类似的问题将会持续存在。

统汉字数据库

统汉字数据库统一码联盟所维护的数据库文件。其为统汉字的每个汉字做了说明,内容包含:

  • 统一码与各国家、地区标准及各工业标准的对应。
  • 依据重要字典(如康熙字典)的排序索引。
  • 经过编码的异体字
  • 汉字在各种语言中的发音。
  • 英文释义。

其数据库透过以下几种方式发布:

  • 统一码联盟维护的网站版本[14]
  • 可供下载的txt文本文件
  • 基于上述文件开发的第三方版本。
    • libUnihan项目开发了一套可供调用的c,和一个SQLite格式的Unihan数据库[15]。前者以LGPL协议发布,后者以MIT协议发布。

批评

收字过少

合并异体字,虽有助减少收录字数,但在研究学术时,如古籍、历史及文字研究等,部分文献确要将字形不同之字同时并行。已合并的各个字,在这些文献里变得各有各意思。学者若使用Unicode,遇到这种情况,就要用不同电脑字体去显示同一个字码,甚至要自行造字,或舍Unicode而用其他编码。一来查找、转换电脑字体构成不便,二来有损Unicode记录每一个字之用意,三来不能以纯文本交换,四来电脑字体或因授权条款之限,难以交换流传。另外,这亦等于不能以Unicode准确记录文献,不利于文本的电脑化。

不同字形之字合并后,若检索方法以字形为本,会产生混乱,难以检索。例如笔画检字,艸部之“艹头”,中国、日本算作三画,而传统中文为四画,留有“艸”形者则为六画。Unicode同一字码,源于字形不同,就有几种笔画,检索混乱。即使检出字,笔画与显示出来的字形也不相符。因此,批评者认为,Unicode合并异体字并不可取。

收字过多

但是另一方面,也有批评认为Unicode收入大量错讹字及写法高度相似的同一字的不同字形本身就是不应该的。电脑文本本身永远不可能完全无损地记录文献,且文献本身也会因传抄制版等原因略有不同,如果把每个字的各种写法全部编码,会浪费空间。 完全无损地研究、记录文献只能通过查看原本或照相复印版来完成,把无损保存转嫁给编码是错误的。

现时Unicode按字源分离原则,把一些异体字分别编码,带来了检索困难。只要写法稍有不同,就无法检出,令使用户检索字词时,必须反复检索其不同写法,造成重复劳动,对文献研究反而是种妨碍。例如Unicode中将“兒”和“𠒇”字安放在不同的码位里。在检索文献时,检索“兒”字时就找不到“雷庄𠒇”,检索“𠒇”字时就找不到“雷庄兒”,反而造成困扰[16]

收字混乱

对于同一部件,Unicode有分有合,原则不一致。如“”和“”、“”和“”都分离编码,但“”和“”就整并了;“”和“”、“”和“”皆整并作一码,而“”和“”又分开来,既令人混淆,亦令人无所适从。

此外,Unicode收录不少幽灵汉字,人们难以找到其出处,它们在实际生活上也极少机会使用,有些甚至是错讹字,或者仅是某一个人的名字用字,那个人不见得是名人,甚至可能已去世,却永久成为标准里的字符,占用了一个码位。比如台湾律师吕秋𧽚,他名字里的“𧽚”字本应作“远”,可是户政人员误听他外公说的台语,把“辵字边”听成“走马边”,外公又不敢更正。当事人长大后,才确认这是错字,“五千年来从来没人这么写过”[17]。但这字已永久收进Unicode中。又如香港增补字符集里的许多人名用字,都被学者指出乃属讹写,或者是来历不明的自创新字,多部权威字书都没有收录,学者批评把这些字收进字库后将会永久遗害[18]。中文信息界的李祥在其专栏批评当局“解决不了增补字集中上千错字、白字、生造字的读音问题”,呼吁“不要把香港增补字符集与申请ISO强迫联系在一起”[19]。然而,这些人名讹字亦已经收进Unicode中。

汉字〇

“〇”是一个汉字,《集韵》中已有此字,则天文字中亦有此字。《汉语大字典》《中华字海》《现代汉语词典》都收录了此字。但在Unicode中它被放入CJK符号和标点区,被等同于数字0,在搜索“〇”的时候,会连带搜索出数字0,使用上颇为不便(搜索汉字“一、二、三”,不会搜索出数字1、2、3)。此外,很多程序限定了汉字的范围为Unicode各汉字区,区外不视为汉字,由于“〇”不在汉字区中,导致这些程序无法处理“〇”这个汉字,造成不便。

已统一汉字

原则上ISO 10646只对(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。以下使用HTML标示同一编码的字在不同地区的写法(但只是读者的浏览器所提供的字体,未必代表该地区的标准写法)。

例子
Unicode 中文 日文 韩文 越文
中国大陆 台湾 香港
U+623F
U+6C49 [注 3]
U+6E2F
U+6F22
U+76F4
U+7A97
U+89D2
U+8AA4
U+8BEF [注 3]
U+8D77
U+9AA8

注:不是所有网页浏览器均可分辨全部HTML语言代码(Language Code)并使用不同字形。如非某一地区的用户看到的字形和当地通用的字形一样,表示该用户的浏览器不能分辨此标签,或设置两者以同一种字形显示。

未统一汉字

有些字只是同一字在不同地区的写法,理应统一,但因为字源分离原则而只好分开编码。由于KS X 1001、Big5、IBM 32、JIS X 0213、ARIB STD-B24、KPS 10721、CNS 11643中有太多字形非常接近,按Unicode标准应该统一,但是从编码上分离的字。这些字只有正统的会编入正式字集(包括扩展区),不正统的编入“兼容表意文字区”(Compatibility Ideographs)和位于“第二辅助平面”的“兼容表意文字补充区”(Compatibility Ideographs Supplement)中。

示例:

Unicode Unicode Unicode
U+4E1F U+4E22
U+514C U+5151
U+518A U+518C
U+5433 U+5434 U+5449
U+543F U+544A
U+5965 U+5967
U+5968 U+596C U+734E
U+5986 U+599D
U+59CD U+59D7
U+5C13 U+5C14
U+5F54 U+5F55
U+6236 U+6237 U+6238
U+63FA U+6416 U+6447
U+66A8 U+66C1
U+69D8 U+6A23
U+6A2A U+6A6B
U+6B65 U+6B69
U+7155 U+7199
U+7D55 U+7D76
U+7DA0 绿 U+7DD1 绿
U+9AEA U+9AEE
U+9EAA U+9EAB
U+9EBC U+9EBD
U+9EC3 U+9EC4
U+9ED1 U+9ED2

自上表发表后,WG2亦调查过其他汉字[20],认为另一批属于基本多文种平面的汉字,亦可考虑收编到ISO 10646 Annex S3

技术问题

扩展B区的问题

扩展B区使用了辅助平面来摆放汉字,以致不少文字处理软件都不能支持。例如,Microsoft Office 2000或之前的版本,即使电脑拥有扩展B区汉字字体,也只会显示两个方格。

另外,因扩展B区在整理上有缺陷,收录了以下5个本来应该与其他汉字统一的字[21]

而在WG2 N1155[20]文件中,亦列出了152对可考虑统一的汉字。

错误统一的问题

表意文字小组(IRG)处理文字时,遵循对字而不是对字形编码的原则。但是有的字被错误统一编在同一个编码之中,如编码为U+2827C的汉字。2014年5月有人指出了这个问题[22]

编码 台湾源(TF-6127) 香港源(H-8BAE)
U+2827C 𨉼 𨉼

当惡和悪作为部件时是不应该统一的,因为惡和悪的繁简性质不同。相关的规定中也并未提及惡和悪作为部件应当统一,况且𫫖和噁是分开编码的。

但是当表意文字小组(IRG)收到这个问题后,认为应当保持统一[23]。因此这两个字仍然在同一编码之中。

注释

  1. ^ 这12个字放到兼容区不是因为和其他字同形或为异体,而是因为它们只收录在厂商用字中,但未有收录在官方标准(C-、T-、J-、K-Source)中。他们有独立的形、音、义,即“独一”(unique)[2]
  2. ^ 旧版“细明体”指Windows XP或以前版本之新细明体细明体,其汉字写法大体上遵从传承字形
  3. ^ 3.0 3.1 某些码位原来只有个别地区的字,但其他地区为兼容国际标准,逐渐将所有码位的字亦纳入其国家标准。

参考文献

  1. ^ Roadmap to the TIP. 统一码联盟. [2018-06-03]. 
  2. ^ Unicode 6.1, 第410-411页 [1]
  3. ^ 日本的“仝”本来被视为同上符号,位于中日韩符号和标点区;Hanazono fonts. fonts.jp. 
  4. ^ 收入中日韩兼容表意文字
  5. ^ CJK Codes - CCCII and ANSI Z39.64-1989 (EACC). www.ibiblio.org. 
  6. ^ http://std.dkuug.dk/JTC1/SC2/WG2/docs/n3210.pdf
  7. ^ http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3196.pdf
  8. ^ IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate 页面存档备份,存于互联网档案馆
  9. ^ IRGN1319A1_MoveToCJK_D.pdf. (原始内容 (PDF)存档于2018-01-15). 
  10. ^ 存档副本 (PDF). [2015年12月12日]. (原始内容 (PDF)存档于2015年1月4日). 
  11. ^ http://www.unicode.org/charts/PDF/U2B820.pdf
  12. ^ 刻石录:《Unicode摧残繁体字》刻石录:《不知丹青,枉谈汉字》
  13. ^ 安冈孝一:《Unicodeの矛盾》
  14. ^ 统汉字资料库. 统一码联盟. [2009-05-04]. 
  15. ^ libUnihan主页. libUnihan. [2009-05-04]. 
  16. ^ 散弹一号:《“𠒇”字系咩嚟?——港姐冠军带出嘅哲学问题》,刊《辅仁媒体》。
  17. ^ 吕秋远:《吕秋“走袁”》,刊《立场新闻》。
  18. ^ 《政府通用字库错漏百出 收录市民自创新字影响中文水平》,《太阳报》A6版,1999年10月13日
  19. ^ 李祥:《为了香港成为数字城市……》
  20. ^ 20.0 20.1 IRGN1155 Possible Duplicates (.zip). [2019.06.22]. 
  21. ^ http://std.dkuug.dk/JTC1/SC2/wg2/docs/n2644.pdf
  22. ^ 存档副本 (PDF). [2015-06-20]. (原始内容 (PDF)存档于2015-06-20). 
  23. ^ ISO/IEC JTC1/SC2/WG2/IRG N2013,第5条 (PDF). [2015-06-20]. (原始内容 (PDF)存档于2015-06-20). 

外部链接

Unicode(统一码)
ISO表意文字工作组

参见

{{bottomLinkPreText}} {{bottomLinkText}}
中日韩统一表意文字
Listen to this article