热门问题
时间线
聊天
视角
中文资讯交换码
来自维基百科,自由的百科全书
Remove ads
中文资讯交换码(Chinese Character Code for Information Interchange,简称CCCII),又名全汉字标准交换码[1],是由中华民国政府发展的字符集和编码方案,由获得中研院中美科学学术合作委员会与文建会(后升格为文化部)赞助的“国字整理小组”(全名为:资讯应用国字整理小组)所提出[2]。开发目的是将其作为中文交换码,使中文资讯交换更加便利。
此交换码每个字用三个字节存储,在节约空间方面不如大五码,又不像中文标准交换码成为官方标准,所以未被电脑业界广泛采纳[3]。香港各大学图书馆在2003年由旧有的CCCII系统换成UTF-8[4][5]。故现仅台湾和美国仍在使用,且只用于大学图书馆的线上目录检索系统。
Remove ads
简介
1979年,加州斯坦福大学召开一场筹划东亚图书馆自动化的会议,希望订定中文交换码的标准作为自动化之根据,以解决使用电脑处理东亚语文资料的问题。那时的汉字码标准只有日本产业规格订定的JIS C6226,但由于日本汉字的数目、字型皆与中文有相当程度的差异,难以作为代表,经台湾和美国东亚图书馆华裔与会者强力反对后,决定先搁置决议,由台湾代表谢清俊在次年三月亚洲研究学会年会,提出台湾方面的汉字编码方案互作比较[6][1]。
谢清俊教授返国后,上书政务委员李国鼎及国科会、中研院中美科学学术合作委员会(简称中美会)等单位,集合国内一批文字学家、图书馆学家及计算机科学家,组成“中文资讯处理研究用字小组”(1985年其国字整理组从中美会转至文建会,改名为资讯应用国字整理小组),共同整理中文文字,并解决中文资讯处理的技术问题。其中,字码编定的部分由谢清俊、张仲陶、杨键樵、黄克东教授负责,文字审查工作则有潘重规、周骏富、周何、何佑森、金祥恒等教授参与,并由王振鹄、张鼎锺等教授担任中文资讯交换码审查小组的成员[7]。
台湾于次届亚洲学会年会上,提出共4,808字的“中文资讯交换码”;“中文资讯交换码”的架构为美方接受,但要求扩大编码字集。“国字整理小组”在1981年完成第二批,包括17,032个正体字、11,517个异体字;1987年再发表第三批,包括20,583个正体字。前后二次共计扩编至53,940个汉字字码,并完成64×64,32×32的机读字型;此外,为了方便电脑上的文字处理,又编制了“中国文字数据库”(Chinese Character Database,简称CCDB),其中列出每个字属性如部首、笔画、读音以及各种对应和输入码[6]。
CCCII后来获得美国国会图书馆认可,称为东亚文字码(East Asian Character Code,EACC),并于1989年纳入美国国家标准(编号:ANSI/NISO Z39.64)。CCCII并已被OCLC和RLIN(Research Libraries Information Network)用作中日韩文的书目字码标准[8]。
“国字整理小组”从1979至1989十年间,共计整理、搜集了75,684个汉字(正体字44,167、异体字31,517)[7]。随着张仲陶教授在1997年去世,以及谢清俊教授将发展方向转往汉字构形数据库,CCCII已停止维护、更新[9][10]。
Remove ads
编码结构
该编码以三个字节来代表一个中文字,每字节为7位元,并根据ISO 2022规格以94×94×94的编码空间安放字符,最多可收纳830,584个。
一个94×94的编码空间称为面(Plane)。CCCII共有94个面。以6个面组合成为1个层(Layer)。因此CCCII共有16个层,除第16层仅含4面外,其余各层均含有6个面(即15×6+4=94)。这16个层相叠,形成一个向下延伸的三度空间,由此形成关联。
第1个层放置正体字(正体字按常用、备用、罕用的顺序分群并依序排列,各字群再按先部首、次笔画数、最后笔顺的次序排列);第2至第13个层,放置异体字,其中第2层专放简体字,第13层放置日文汉字。这样的三度空间设计使检索某一汉字的异体字变得容易,如:強、强、彊三字的后两个字节是一样的[11]。
另见
注释
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads