热门问题
时间线
聊天
视角
中文资讯交换码
来自维基百科,自由的百科全书
Remove ads
中文资讯交换码(Chinese Character Code for Information Interchange,简称CCCII),又名全汉字标准交换码[1],是由中华民国政府发展的字符集和编码方案,由获得中研院中美科学学术合作委员会与文建会(后升格为文化部)赞助的“国字整理小组”(全名为:资讯应用国字整理小组)所提出[3]。开发目的是将其作为中文交换码,使中文资讯交换更加便利。
此交换码每个字用三个位元组存储,在节约空间方面不如大五码,又不像中文标准交换码成为官方标准,所以未被电脑业界广泛采纳[4]。香港各大学图书馆在2003年由旧有的CCCII系统换成UTF-8[5][6]。故现仅台湾和美国仍在使用,且只用于大学图书馆的线上目录检索系统。
Remove ads
简介
1979年11月,加州史丹佛大学召开一场筹划东亚图书馆自动化的会议,希望订定中文交换码的标准作为自动化之根据,以解决使用电脑处理东亚语文资料的问题。那时的汉字码标准只有日本产业规格订定的JIS C6226,但由于日本汉字的数目、字型皆与中文有相当程度的差异,难以作为代表,经台湾和美国东亚图书馆华裔与会者强力反对后,决定先搁置决议,由台湾代表谢清俊在次年三月亚洲研究学会年会,提出台湾方面的汉字编码方案互作比较[7][1][8]。
谢清俊教授返国后,上书政务委员李国鼎及国科会、中研院中美科学学术合作委员会(简称中美会)等单位,集合国内一批文字学家、图书馆学家及电脑科学家,组成“中文资讯处理研究用字小组”(1985年其国字整理组从中美会转至文建会,改名为资讯应用国字整理小组),共同整理中文文字,并解决中文资讯处理的技术问题。其中,字码编定的部份由谢清俊、张仲陶、杨键樵、黄克东教授负责,文字审查工作则有潘重规、周骏富、周何、何佑森、金祥恒等教授参与,并由王振鹄、张鼎锺等教授担任中文资讯交换码审查小组的成员[8]。
台湾于次届亚洲学会年会上,提出共4,808字的“中文资讯交换码”;“中文资讯交换码”的架构为美方接受,但要求扩大编码字集。“国字整理小组”在1981年完成第二批,包括17,032个正体字、11,517个异体字;1987年再发表第三批,包括20,583个正体字。前后二次共计扩编至53,940个汉字字码,并完成64×64,32×32的机读字型;此外,为了方便电脑上的文字处理,又编制了“中国文字资料库”(Chinese Character Database,简称CCDB),其中列出每个字属性如部首、笔画、读音以及各种对应和输入码[7]。
CCCII后来获得美国国会图书馆认可,称为东亚文字码(East Asian Character Code,EACC),并于1989年纳入美国国家标准(编号:ANSI/NISO Z39.64)。CCCII并已被OCLC和RLIN(Research Libraries Information Network)用作中日韩文的书目字码标准[9]。
“国字整理小组”从1979至1989十年间,共计整理、搜集了75,684个汉字(正体字44,167、异体字31,517)[8]。随著张仲陶教授在1997年去世,以及谢清俊教授将发展方向转往汉字构形资料库,CCCII已停止维护、更新[10][11]。
Remove ads
编码结构
该编码以三个位元组来代表一个中文字,每位元组为7位元,并根据ISO 2022规格以94×94×94的编码空间安放字符,最多可收纳830,584个。
一个94段(Section)×94位(Position)的编码空间称为面(Plane)。CCCII共有94个面。以6个面组合成为1个层(Layer)。因此CCCII共有16个层,除第16层仅含4面外,其馀各层均含有6个面(即15×6+4=94)。这16个层相叠,形成一个向下延伸的三度空间,由此形成关联。
第1个层放置正体字(正体字按常用、备用、罕用的顺序分群并依序排列,各字群再按先部首、次笔画数、最后笔顺的次序排列);第2至第13个层,于同段且同位处放置与正体字对应的异体字,其中第2层专放简体字,第13层放置日文汉字。这样的三度空间设计使检索某一汉字的异体字变得容易,如:強、强、彊三字的后两个位元组是一样的[12]。
版本
中文资讯交换码第一册于1980年4月出版,仅使用了第1面的一部分,编定的字码包括:[13]:1–17
本册字表所用的字体主要采用上海印刷厂的铅字,但仍有二十馀字缺字,则以照相打字后再拆解拼凑补足。[17]
中文资讯交换码第二册、中文资讯交换码异体字表皆于1981年2月出版。[18]:1–3
中文资讯交换码第二册第二版、中文资讯交换码异体字表第二册第二版先后于1982年11月、12月出版,修订内容包含:[19]:17–18,123–127
- 发现1982年修订并正式启用的教育部《常用国字标准字体表》相较于1979年版删去7字并加入8字[注 2],删去的7字不随之从最常用字区中移出,而加入的8字除了“芈”字补收入最常用字区(216330)以外,其馀7字均已编入次常用字区而维持不动,不随之自移入最常用字区;
- 删除100组重复出现字;
- 有4字互为异体字,移入异体字表;
- 有4字位置排错(垮、垢;蹑、躏),两两一组互换字码;
- 部首列错,更正7字;字形修正152字;笔划错误204字。
本次修订后,整套中文资讯交换码于中文字部分计收最常用字4,808字、次常用字17,077字、自最常用字或次常用字衍生之异体字11,660字(其中含简体字3,752字),总计33,545个中文字。
中文资讯交换码第二册第三版、中文资讯交换码异体字表[注 3]第二册第三版皆于1985年5月出版,修订内容包含:[21]:17–18,31–38
- 根据1982年《常用国字标准字体表》、《次常用国字标准字体表》修订字形;
- 第二册第二版曾删除的字当中有37字符合教育部标准,填回原位;
- 删除34组重复出现字;
- 有异体字47字误编入正体字区,改移入异体字表;
- 第二册、第二册第二版字表所用的字体皆为手写楷体,本次修订时改用电脑制版之明体。
本次修订后,整套中文资讯交换码于中文字部分计收“常用字集”4,808字、“备用字集”17,032字[注 4]、自最常用字或次常用字衍生之异体字11,517字(其中含简体字3,625字[22]:1–2),总计33,357个中文字。
Remove ads
中文资讯交换码第三册于1987年2月出版,称为“罕用字集”,编定的字码包括:[23]:编辑说明1–3
修订内容则包含:[23]:附录1–10
- 部首列错,更正75字,字码则不变;
- 删除26组重复出现字;
- 更正第二册字表中错误的字形5字。
中文资讯交换码异体字表第一次综合修订稿于1989年6月出版,修订内容包含:[24]
- 发现先前未对应任何异体字的正体字中,有些实际上有其异体字;
- 先前被列为异体字的,有些实际上为非异体字的通用字与假借字;
- 罕用字组中误收到异体字二万馀字,必须改移入异体字表;
- 有户籍用字约九千字,须加入异体字表。
本次异体字表所收的字数当时并未精确统计,后来整理得到“异体字资料属性卡”30,646字。[25]
中文资讯交换码异体字表(增修版)于1994年6月出版,修订内容包含:[25]
- 根据1986年第一版《汉语大字典》增收新字,填入字表,但当第3层至第12层的10个格子皆已用尽时,则添于列尾格子之外,暂不赋予字码;
- 研判字表所列之异体字中,有误写字、另为他字、被字书指为讹误、假借字、笔势略异字、古今字等情形,以符号在字旁注记。
本次增修仅在第一次综合修订稿上添加新字,以及在字旁加注符号,故不称之为“第二次综合修订稿”。
Remove ads
另见
注释
参考文献
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads