热门问题
时间线
聊天
视角
中日韩统一表意文字
经过Unicode认同的汉字 来自维基百科,自由的百科全书
Remove ads
中日韩统一表意文字(英语:CJK Unified Ideograph),又称统汉码、统一汉字集(英语:Unihan),是指在ISO 10646与统一码标准中经过“汉字等同”处理的汉字。[2]汉字等同(英语:Han unification[3])是指将中文、日文、韩文、越南文、壮文、琉球文等书写系统共通的中日韩汉字赋予相同编码的做法;[5]被合并编码的汉字,往往起源相同、本义相通、形状大同小异。[6]整理出来的中日韩统一表意文字,由统一码联盟建置的Unihan数据库维护。
Remove ads
涵盖范围
名称
除了“中日韩统一表意文字”,CJK Unified Ideograph 还有以下中文译名:
除了“汉字等同”,Han Unification 又译为:
- 汉字认同
- 汉字统一
- 汉字统合
历史
1978年,日本产业规格制订了基于ISO/IEC 2022的JIS C 6226,为全世界最早的汉字编码,包含6349汉字。1980年代,台湾(中文信息交换码、中文标准交换码)、中国大陆(GB 2312)、韩国(KS C 5601)开始制订了各自的编码规范。这些规范彼此之间并无连系。若要在一份文件中同时使用,则要以转义字符的方式来交换。
1980年,日本的国立国会图书馆的高桥德太郎以书目学的观点指出,统一的东亚汉字编码系统有必要。同年,台湾制定了三字节的中文信息交换码,这是第一款期望可以一致处理中国、日本、韩国汉字的编码。之后,美国的国会图书馆采用了此标准,并另外命名为东亚编码字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。
1984年,ISO的文字编码委员会(ISO/TC 97/SC2)决议制订出一套编码规格(ISO 10646),是以交换文字集的方式来统一处理世界的文字。并成立了工作小组(ISO/TC 97/SC 2/WG 2)。这编码一开始的构想是采用16位,而对于日本及中国等国的汉字编码则原封不动地加入。但若如此,中国当时所制订的编码都无法加入,因而反对,并在1989年提出各国汉字统合集合(Han Character Collection,HCC)的构想。
1990年完成了ISO 10646的初版草案(DIS 10646)。汉字用32位表示,并将各国的汉字编码原封不动加入。但中国认为,若各国各自为汉字编码,将不利于统一处理汉字,因而反对。为了日后能顺利讨论汉字编码及处理有关方针,并呼吁WG 2特别设置了中日韩联合研究小组(CJK-JRG,Joint Research Group,为表意文字小组的前身),以持续讨论。
另一方面,1987年,施乐的Joe Becker和Lee Collins开发了统合处理全世界所有文字的统一码。1989年发表了统一码概要。基本为16位。于是,中、日、韩的汉字统合了。基本方针以16位处理所有文字。1990年完成了基于此方针的最终草案。1991年1月,大致同意此方案的企业成立了统一码联盟。中、日、韩类似的汉字使用约二万多字。为了未来扩展,保留了三万汉字以供其它用途。
1991年,各国希望能以一致的方式处理文字,否决了ISO/IEC 10646的初版草案。基于中国与统一码联盟的提议,ISO 10646和统一码成立了中日韩联合研究小组。中日韩联合研究小组将基于各国的汉字编码,独自定义定规范、制作ISO 10646和统一码的统一汉字编码。年尾完成了Unified Repertoire and Ordering(URO)。1992年,URO加入ISO 10646的第二版,但发现一些缺失,之后修正。
1993年5月正式制订最初的“中日韩统一表意文字”位于U+4E00–U+9FFF,共20902字;不过汉字“〇”(U+3007)误当数字放入符号和标点区。一个月后制订了统一码1.1。
1999年,依据ISO/IEC 10646的第17修正案(Amendment 17)订定扩展区A,于U+3400–U+4DFF加入6582汉字。
2001年,依据ISO/IEC 10646-2新增扩展区B,于U+20000–U+2A6FF有42711汉字;但短时间内增加大量汉字,产生许多重复字形。
2005年,依据ISO/IEC 10646:2003的第一修正案(Amendment 1),基本多文种平面增加U+9FA6–U+9FBB,共22汉字。
2009年,统一码5.2扩展区C增加U+2A700–U+2B734,基本多文种平面增加U+9FC4–U+9FCB。
2010年,统一码6.0扩展区D增加U+2B740–U+2B81F。
2012年,统一码7.0基本多文种平面增加1汉字:U+9FCC。
2015年,统一码8.0扩展区E增加U+2B820–U+2CEAF,基本多文种平面增加U+9FCD–U+9FD5。
2017年,统一码10.0扩展区F增加U+2CEB0–U+2EBEF,基本多文种平面增加U+9FD6–U+9FEA。
2018年,统一码11.0基本多文种平面末尾增加5汉字:U+9FEB–U+9FEF。
2020年,统一码13.0增加4969汉字,其中4939字位于第三平面的扩展区G,码位为U+30000–U+3134A。同时,亦在基本区增加13字:U+9FF0–U+9FFC,在扩展A区增加10字:U+4DB6–U+4DBF,在扩展B区增加7字:U+2A6D7–U+2A6DD。
2021年,统一码14.0基本多文种平面末尾增加3汉字:U+9FFC–U+9FFF。同时,亦在扩展B区增加2字:U+2A6DE–U+2A6DF,在扩展C区增加4字:U+2B735–U+2B738。
2022年,统一码15.0增加4193汉字,其中4192字位于第三平面的扩展区H,码位为U+31350–U+323AF。同时,亦在扩展C区增加7字:U+2B739。
2023年,统一码15.1增加622汉字,位于第二平面的扩展区I,码位为U+2EBF0 - U+2EE5D。
2025年,统一码17.0增加4316汉字,位于第二平面的扩展区J,码位为U+323B0 - U+33479。
另外,第三平面的U+38000至U+3AB9F预计放置篆书,相关提案已经提交。按路线图,该平面还会收录金文、简帛文、陶文、鸟虫书等[11]。
Remove ads
版本
Remove ads
成员机构
收字来源
最初期共20902统一汉字,范围为U+4E00–U+9FA5,收字来源包括以下字集[22]:
其中,统一码技术委员会源(U源)指,并非由表意文字小组所递交的参考字集,而是委员会额外递交作参考的字集标准。并且此来源的字集不适用原字集分离原则(见稍后)。
Remove ads
扩展A区包含有6592汉字,位置在U+3400–U+4DBF。这6千多汉字分别从以下字典或字集获取:
扩展B区有42717汉字,位置在U+20000–U+2A6DD。根据IRG N777号文件(页面存档备份,存于互联网档案馆),这四万多汉字分别从以下字典或字集中获取:
这些汉字有不少重复,经整理后实际只有42711汉字。另外,U+2F800–U+2FA1D放了来自台湾的542兼容汉字。
Remove ads
为使统一码向下兼容GB 18030和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,4.1版引进了香港增补字符集的14用字和GB 18030的8用字。该22字编于U+9FA6–U+9FBB。
另外,U+FA70–U+FAD9放了来自朝鲜的106兼容汉字。
2008年4月推出的统一码5.1版收录7个由日本Adobe公司递交的日语汉字(U+9FBC–U+9FC2)[27],和鿃(大字加两个入字,就如陕西省的陝字换上目字旁)(U+9FC3)。本来统一码3.0收录了目字旁加夾(大字加两个人字)字的“䀹”(U+4039),目字旁加㚒字的字,与“䀹”无论意义和发音均不同,故魏安(Andrew West)和井作恒(John H. Jenkins)申请追加此字[28]。
于2009年10月发布的统一码5.2涵盖了扩展C区,共收录4149汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未编码的汉字,在U+2A700–U+2B734。这四千多汉字分别从以下字典或字集获取:
扩展D区包含的都是所谓的“急用汉字”,合共222新汉字,于2010下半年发布的统一码6.0中,编码范围为U+2B740–U+2B81F(实际有字符为U+2B740–U+2B81D)。
扩展D区原本计划放置扩展C区未收录的16000多汉字,但在2007年5月,台湾撤销了6545个第二部分字集内私用汉字,不再使用字,原因是那些人名用字的拥有人已去世或移居外地[29],此后扩展D区缩减到大约10000字左右[30]。由于各种阻碍,协议先把数量较少,又急切要收录的汉字提交出来,就是“急用汉字”,以便和统一码6.0.0版一起发表。提出的急用汉字只有二百二十二字(本来有二百二十三字,但日本撤回其中一字)。现在文字小组把第二部分字集延后到扩展E区。
扩展E区亦在2015年6月17日的统一码8.0中发布,放置于编码范围U+2B820–U+2CEAF。
扩展E区本应包含扩展D区未收录的10000多个汉字,但在2008年11月,中国大陆以“难以逐个找证据”为理由,撤销了3215汉字[31],这些汉字主要用于地名、人名、姓氏,亦有数百个《中国大百科全书》中的文字。这是继台湾撤销6545字之后的又一次大规模撤销。之后又经过长时间的检查处理,E区最终定稿,共5762字[32]。
这些汉字来源如下:
“急用汉字”是扩展E区整理后期,各地新发现并急于使用,又等不及放入扩展F区的字;和扩展E区一起收入统一码8.0,位置在U+9FCD–U+9FD5;当中中国大陆在此处申请收入三字,连同扩展E区的字,通用规范汉字表的8105字至此全部收入。
扩展F区在2017年6月20日的统一码10.0发布,编码范围为U+2CEB0–U+2EBEF。
扩展F区来源于新提交的一批汉字,主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字,共有7473字。
这些汉字的来源如下:
于2020年3月10日公布的统一码13.0中在第三辅助平面收录扩展区G的4939汉字,码位为U+30000–U+3134A[33][34]。
这些汉字的来源如下(部分字符来自多于一处来源,所以下表总数多于收录总数4939字):
2022年9月13日公布的统一码15.0在第三辅助平面收录扩展区H的4192汉字,码位为U+31350–U+323AF。
这些汉字的来源如下(部分字符来自多于一处来源,下表总数多于收录总数4192字):
2023年9月12日公布的统一码15.1在第二辅助平面收录扩展区I的622个汉字,码位为U+2EBF0–U+2EE5F。
这些汉字的来源如下:
汉字等同

东亚各国字形多有微妙的差异。如“房”字的第一笔,韩国传统汉字字形、台湾教育部标准字体作撇“房”;香港教育参考字形、中国大陆规范作点“房”;日本标准作横“房”。又如“次”字的左旁,韩国采用传统字形,首笔为横,次笔为挑;台湾教育部作两横;大陆、日本、香港等则作“冫”(俗称两点水)。这种程度的差异,理想是整并为一字为佳。否则,要是凡异体字都收进不同码位里,统一码收录的汉字就会过于臃肿,用户搜索时也会因异体问题而找不到想要的结果。
然而,从之前各种受挫之文字整并计划的经验得知,集成字集与现行通用字集(Big5或国标码)等无法一一对应,是推行集成字集的最大阻碍。例如,日本的JIS编码同时收录了“剣”与“劍”字,原本JIS文件里这两字可以并存。如果采用集成字集后,它们会变成同一字,使用的时就会造成困扰。而且,如果将多个不同地区字形合并,会影响阅读者,令用户不习惯并非以往所见字形;更有可能引致阅读者因习惯而书写不属于自己地区的字形(或地区性的异体字)。
于是,表意文字认同原则与原字集分离原则就应运而生。
按表意文字认同原则,统一码“只对字(Character)而不对字形(Glyph)”编码,会把同一字的不同字形(即异体字)合并。好像上述“次”字,统一码会整并成一码。又例如不同地区而有不同写法的部首,如“⻌(中国大陆规范、日本新字体)、⻍(港台旧字形、韩国、日本旧字体)、⻎(台湾教育部)”、“礻(中国大陆规范、台湾教育部)、礻(日本新字体)、⺬(日本旧字体、韩国、港台旧字形)”、“爫(中国大陆、港台新字形)、⺥(旧字形)”等,会合并编码。这些部首的写法差异就会交由字体处理。比如说,使用依中国大陆汉字标准《印刷通用汉字字形表》的字体(如中易宋体、微软雅黑体)便会出现“⻌、爫”;使用台湾教育部标准字体(如微软正黑体或新版细明体,但非旧版细明体[注 3])就会出现“⻎、爫”等字形,大大解决了因地区而异之部首写法。
至于原字集分离原则是指,上述所列出之各种收字来源,若有任何字集同时收了两种以上文字字形,中日韩统一表意文字也会临时放弃认同原则,同时收录这些字。这样一来,现行各种原有字集与统一码汉字可一一对应。比如“房”字,各地字集都没有分别编码,就只编进一码位,部首第一笔的写法交由字体处理。然而,“戶”、“户”、“戸”这三字,在一些地区标准里是分别编码的,统一码则以三码位分别收录它们。上述的“剣”与“劍”也一样安放到不同码位。
基于上述运作,统一码能大幅减少收录汉字字数,同时让地区编码过渡至统一码时,字集里的字符不会流失,但原字集分离原则破坏了统一码“只对字而不对字形”编码之原则,某些汉字获得两位或以上编码,亦遭受不少批评。
汉字等同有三个原则:[6]
注意第三个原则受原字集分离原则和起源不同原则的制约。
原字集分离原则(英语:Source Separation Rule):
两个表意文字,如果在一个主要源标准中是不同的,就不视为等同。[35]
Source Separation Rule 又译为“字源分离原则”、“来源字集分离原则”、“原规格分离原则”。
这个原则又名来回原则(英语:round-trip rule),因其旨在使字符数据在来回转码时不损失信息;这里“来回转码”是指在表意文字小组源标准与统一码标准之间来回转换编码。 [36]
这个原则只适用于最初的中日韩统一表意文字区块, 而“主要源标准”是指 G 源、T 源、J 源或 K 源(见最初期统一汉字)。 表意文字小组在 1992 年放弃了这个原则,将来也不会再用。 [37]
例如下表六个“剑”字,在标准“ JIS X 0208-1990 ”中分开编码,因而在统一码中各占一个码位:
起源不同原则(英语:Noncognate Rule):
一般而言,两个没有历史源流关系的表意文字,不视为等同。[39]
有些汉字虽然外形相近,但意义毫不相干,那么也不能合并。 例如“土”和“士”虽然形似,但意义没有关系,所以不可合并。然而,日本、韩国、中国大陆、香港等地的“寺”字,与台湾教育部的“寺”字,两者顶部分别是“土”和“士”,但它们音义全同,是同一字的异体,就不受此原则的限制。
起源不同原则只是一般性原则(“一般而言”),也允许有特殊情况。例如“同形字”,即一个字有不止一个读音与字义,虽然字源不同,却由同一字形表示。比如汉字“芸芸众生”的“芸”,与日本汉字“艺”字的新字体“芸”,是同形字。要是这些同形字之字形确实相同而非相似(“芸”字的草头虽然有三笔的“⺾”、四笔的“⺿”等不同写法,但它们都指同一部件,没有对立),就不会应用起源不同原则。
第三个等同原则:
每个表意文字,用二级分类法(如下所述)确定其抽象形体。两个表意文字,若有相同的抽象形体,就视为等同,除非违反原字集分离原则或起源不同原则。[40]
下文介绍如何确定汉字的抽象形体。
统一码发展了一个三维概念模型,考察汉字的三个属性:语义、抽象形体、实际形体。分别用 X、Y、Z 表示这三个属性,就能把汉字放在一个假想的三维空间里:
- X:语义属性区分汉字的意义和用法。
- Y:语义属性相同的汉字,用 Y 轴所代表的抽象形体属性可区分不同变体。
- Z:语义属性和抽象形体属性都相同的字,用 Z 轴所代表的实际形体属性可区分不同的字体设计。[41]
用抽象形体(Y)及实际形体(Z)来区分汉字,就是二级分类法。[42]
如何分析汉字的抽象形体?对每个汉字,层层拆分,得到其部件结构树,考察以下五方面的特征:
- 部件的数量
- 部件在整个汉字里的相对位置
- 对应部件的结构
- 在某个源字符集里的处理
- 部件包含的部首
两个汉字,如果以上所有特征都相同,那么就视为抽象形体相同,否则视为抽象形体不同。[42]抽象形体相同和不同的例子,可参见[42]。

统一码一方面依据形体对异体字统一编码,另一方面受原字集分离原则限制,所以对某些异体字的处理会不一致。 例如:
原字集分离原则在 1992 年已停用。原因是个别地区提交了不少仅有十分轻微差异的字样,比如台湾《异体字字典》里的各种异体,要求统一码分别编码。然而,那些字样所建基的地区编码,并非该地区的通用编码,例如是中文标准交换码(台湾实际通行的编码是 Big5 码)。若统一码全面采纳,将会令统一码对异体字的处理更混乱。[来源请求]
统一码 3.2 引入了变体选择符, [43] 从此可以用“变体序列”描述字符的变体。汉字的变体,可用“标准变体序列”或“表意文字变体序列”表示。中日韩兼容表意文字和中日韩兼容表意文字补充两个字符块的汉字,均已获编配标准变体序列。 [44] [45] 另一方面,统一码自 2007 年起维护“表意文字变体数据库”,收录了大量汉字变体;截至 2022 年 9 月 13 日,已收录了 29437 个变体序列。 [46] [47] 例如:
Unihan数据库
Unihan数据库是统一码联盟所维护的数据库文件,为统一码的各汉字列出说明,内容有:
数据库以以下方式发布:
批评
有人对统一码的原字集分离原则有不少批评,尤其是它令同一异体部件时而分离,时而合并,引伸许多日常使用的问题。举例说,“青”和“靑”、“淸”和“清”都在正常区域中作分离编码,获得两码位;“晴”、“靖”、“精”虽也获两码位,但其中一位在兼容区,日常难以应用;“请”、“情”、“蜻”、“静”更只有一码位。或例如合并“直”和“直”、“植”和“植”而分离“値”和“值”作两码位。统一码的做法没有把有相同异体部件的字全都合并,也没有把它们全都分离,结果字形经常不一致,或者用户无法选择他希望使用的字形[53]。
其他汉字使用地区也有类似声音。如“戋”和“㦮”两个偏旁,前者为“戔”的大陆简化字,后者为“戔”的日本新字体,在“残”和“残”、“浅”和“浅”、“践”和“践”等组合里,就整并起来。可是碰到“桟”和“栈”,却不统合,分列U+685F与U+6808两码位。日本学者指这种情况为统一码的矛盾[54]。
事实上,统一码本身在“中日韩统一表意文字”不同区域里也用了不一致的并分尺度,因此早期异体字时常获配正常码位,后来常常只有兼容区的暂存编码,再后来则不时直接整并并交由变体选择符处理。若不修正或更改早期编码,类似问题将会持续存在。
合并异体字虽有助减少收录字数,但研究学术时,如古籍、历史及文字等,部分文献却要将字形不同之字同时并行。已合并的各字在这些文献里变得各有各意思。学者若使用统一码,遇到这种情况,就要用不同电脑字体去显示同一字码,甚至要自行造字,或舍统一码而用其他编码。一来查找、转换电脑字体构成不便,二来有损统一码记录每一字之用意,三来不能以纯文本交换,四来电脑字体或因授权条款之限,难以交换流传。另外,这亦等于不能以统一码准确记录文献,不利数字文本。
不同字形之字合并后,若以字形为本检索,会产生混乱,难以检索,如笔画检字,艸部之“艹头”,中国、日本算作三画,而传统中文为四画,留有“艸”形者则为六画。统一码同一字码源于字形不同就有几种笔画,检索混乱。即使检出字,笔画与显示出来的字形也不相符。因此,批评者认为,统一码合并异体字并不可取。
但是另一方面,统一码收录不少幽灵汉字,其出处难以找到,它们在实际生活也极少机会使用,有些甚至是错讹字,或者仅是某一人的名字用字,那人不见得是名人,甚至可能已去世,却永久成为标准里的字符,占用了一码位。比如台湾律师吕秋𧽚的“𧽚”字本应作“遠”,可是户政人员误听他外公说的台语,把“辵字边”听成“走马边”,外公又不敢更正。当事人长大后,才确认这是错字[55],但这字已永久收进统一码。又如香港增补字符集有许多人名用字,学者都指出乃属讹写,或是来历不明的自创新字[56]。中文信息界李祥在其专栏批评当局“解决不了增补字集中上千错字、白字、生造字的读音问题”,呼吁“不要把香港增补字符集与申请ISO强迫联系在一起”[57]。然而,这些人名讹字亦已经收进统一码,构成了收字过多的争议。
也有批评认为统一码收入大量错讹字及写法高度相似的同一字的不同字形本身就不应该。电脑文本本身永远不可能完全无损地记录文献,且文献本身也会因传抄制版等原因略有不同,如果把每字的各种写法全部编码,会浪费空间。完全无损地研究、记录文献只能通过查看原本或照相复印版来完成,把无损保存转嫁给编码是错误的。
现时统一码把一些异体字分别编码,带来了检索困难。只要写法稍有不同,就无法检出,令使用户检索字词时,必须反复检索其不同写法,造成重复劳动,对研究文献反而是种妨碍。例如统一码将“兒”和“𠒇”字安放在不同的码位里。在检索文献时,检索“兒”字时就找不到“雷庄𠒇”,检索“𠒇”字时就找不到“雷庄兒”,反而造成困扰[58]。
统一码对同一部件有分有合,原则不一,如“眞”和“真”、“塡”和“填”都分离编码,但“縝”和“縝”就整并了;“直”和“直”、“植”和“植”皆整并作一码,而“値”和“值”又分开,既令人混淆,亦令人无所适从。统一码按原字集分离原则收字,只看各地区的既有编码,不理会同一部件的文字学问题。可是用户现实在电脑输入文字时看到的是具体字形而不是编码码位,会让人感到矛盾和困惑。
而且在统一码“中日韩统一表意文字”的不同区域里,官方也用了不一致的并分尺度。早期的异体字时常获分配正常码位;后来常常只有兼容区的暂存编码,使兼容区的字符在输入和显示时经常碰到问题;再后来则不时直接整并并交由变体选择符处理。于是统一码的编码矛盾就更突显。
“〇”是则天文字之一,意同“星”,《集韵·卷四·十五青》收录为“星”字的23韵之一,现代用作“零”的小写。《汉语大字典》《中华字海》《现代汉语词典》都收录了此字。但在统一码放入CJK符号和标点区,等同于数字0,在搜索“〇”时会连带搜索出数字0,使用时颇为不便(搜索汉字“一、二、三”不会搜索出数字1、2、3)。此外,很多程序限定了汉字的范围为统一码各汉字区,区外不视为汉字,“〇”不在汉字区就无法处理,造成不便。
已统一汉字
ISO 10646原则只对字(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。以下使用HTML标示同一编码的字在不同地区的写法(但只是读者的浏览器所渲染的字体,与浏览器的设置与设备安装的字体有关,未必代表该地区的标准写法)。
- 例子
注:不是所有网页浏览器均可分辨全部HTML的语言代码(Language Code)并使用不同字形。如非某一地区的用户看到的字形和当地通用的字形一样,表示该用户的浏览器不能分辨此标签,或设置两者以同一种字形显示。
未统一汉字
有些字只是同一字在不同地区的写法,理应统一,但因为原字集分离原则而只好分开编码。由于KS X 1001、Big5、IBM 32、JIS X 0213、ARIB STD-B24、KPS 10721、CNS 11643有太多字形非常接近,按统一码标准应该统一,但分开编码的字。这些字只有正统的会编入正式字集(包括扩展区),不正统的编入“兼容表意文字区”(Compatibility Ideographs)和位于“第二辅助平面”的“兼容表意文字补充区”(Compatibility Ideographs Supplement)中。
示例:
自上表发表后,WG2亦调查过其他汉字[59],认为另一批属于基本多文种平面的汉字,亦可考虑收编到ISO 10646 Annex S3。
技术问题
扩展B区用了辅助平面来摆放汉字,Microsoft Office 2000或之前的版本等不少文字处理软件都不能支持,即使电脑有扩展B区汉字字体也只会显示两格方格。
另外,扩展B区整理有缺陷,收录了以下本来应与其他汉字统一的5字[60]:
而WG2 N1155[59]文件亦列出了152对可考虑统一的汉字。
参见
注释
参考文献
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads