热门问题
时间线
聊天
视角

中文资讯交换码

来自维基百科,自由的百科全书

中文資訊交換碼
Remove ads

中文资讯交换码Chinese Character Code for Information Interchange,简称CCCII),又名全汉字标准交换码[1],是由中华民国政府发展的字符集编码方案,由获得中研院中美科学学术合作委员会与文建会(后升格为文化部)赞助的“国字整理小组”(全名为:资讯应用国字整理小组)所提出[2]。开发目的是将其作为中文交换码,使中文资讯交换更加便利。

事实速览 语言, 标准 ...

此交换码每个字用三个字节存储,在节约空间方面不如大五码,又不像中文标准交换码成为官方标准,所以未被电脑业界广泛采纳[3]。香港各大学图书馆在2003年由旧有的CCCII系统换成UTF-8[4][5]。故现仅台湾和美国仍在使用,且只用于大学图书馆线上目录检索系统

Remove ads

简介

1979年,加州斯坦福大学召开一场筹划东亚图书馆自动化的会议,希望订定中文交换码的标准作为自动化之根据,以解决使用电脑处理东亚语文资料的问题。那时的汉字码标准只有日本产业规格订定的JIS C6226,但由于日本汉字的数目、字型皆与中文有相当程度的差异,难以作为代表,经台湾和美国东亚图书馆华裔与会者强力反对后,决定先搁置决议,由台湾代表谢清俊在次年三月亚洲研究学会年会,提出台湾方面的汉字编码方案互作比较[6][1]

谢清俊教授返国后,上书政务委员李国鼎国科会中研院中美科学学术合作委员会(简称中美会)等单位,集合国内一批文字学家、图书馆学家及计算机科学家,组成“中文资讯处理研究用字小组”(1985年其国字整理组从中美会转至文建会,改名为资讯应用国字整理小组),共同整理中文文字,并解决中文资讯处理的技术问题。其中,字码编定的部分由谢清俊、张仲陶杨键樵黄克东教授负责,文字审查工作则有潘重规周骏富周何何佑森金祥恒等教授参与,并由王振鹄张鼎锺等教授担任中文资讯交换码审查小组的成员[7]

台湾于次届亚洲学会年会上,提出共4,808字的“中文资讯交换码”;“中文资讯交换码”的架构为美方接受,但要求扩大编码字集。“国字整理小组”在1981年完成第二批,包括17,032个正体字、11,517个异体字;1987年再发表第三批,包括20,583个正体字。前后二次共计扩编至53,940个汉字字码,并完成64×64,32×32的机读字型;此外,为了方便电脑上的文字处理,又编制了“中国文字数据库”(Chinese Character Database,简称CCDB),其中列出每个字属性如部首、笔画、读音以及各种对应和输入码[6]

CCCII后来获得美国国会图书馆认可,称为东亚文字码(East Asian Character Code,EACC),并于1989年纳入美国国家标准(编号:ANSI/NISO Z39.64)。CCCII并已被OCLC和RLIN(Research Libraries Information Network)用作中日韩文的书目字码标准[8]

“国字整理小组”从1979至1989十年间,共计整理、搜集了75,684个汉字(正体字44,167、异体字31,517)[7]。随着张仲陶教授在1997年去世,以及谢清俊教授将发展方向转往汉字构形数据库,CCCII已停止维护、更新[9][10]

Remove ads

编码结构

该编码以三个字节来代表一个中文字,每字节为7位元,并根据ISO 2022规格以94×94×94的编码空间安放字符,最多可收纳830,584个。

一个94×94的编码空间称为Plane)。CCCII共有94个面。以6个面组合成为1个Layer)。因此CCCII共有16个层,除第16层仅含4面外,其余各层均含有6个面(即15×6+4=94)。这16个层相叠,形成一个向下延伸的三度空间,由此形成关联。

第1个层放置正体字(正体字按常用、备用、罕用的顺序分群并依序排列,各字群再按先部首、次笔画数、最后笔顺的次序排列);第2至第13个层,放置异体字,其中第2层专放简体字,第13层放置日文汉字。这样的三度空间设计使检索某一汉字的异体字变得容易,如:三字的后两个字节是一样的[11]

另见

注释

Loading content...

外部链接

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads