中文資訊交換碼

CCCII / EACC
汉字圆在CCCII中的位置和字型，包含了正体字、简体字、异体字、日本汉字的写法
语言	汉语、日语、韩语
标准	MARC-8（英语：MARC-8）（机读编目格式标准）、ANSI/NISO Z39.64
现状	主要为图书馆系统使用
分类	基于ISO/IEC 2022结构用于中日韩文字的三字节字元集（TBCS）机读编目格式标准的日、阿拉伯、中、韩、波斯、希伯来、意第绪文字（JACKPHY ）

简介

1979年，加州斯坦福大学召开一场筹划东亚图书馆自动化的会议，希望订定中文交换码的标准作为自动化之根据，以解决使用电脑处理东亚语文资料的问题。那时的汉字码标准只有日本产业规格订定的JIS C6226，但由于日本汉字的数目、字型皆与中文有相当程度的差异，难以作为代表，经台湾和美国东亚图书馆华裔与会者强力反对后，决定先搁置决议，由台湾代表谢清俊在次年三月亚洲研究学会年会，提出台湾方面的汉字编码方案互作比较^[6]^[1]。

谢清俊教授返国后，上书政务委员李国鼎及国科会、中研院中美科学学术合作委员会（简称中美会）等单位，集合国内一批文字学家、图书馆学家及计算机科学家，组成“中文资讯处理研究用字小组”（1985年其国字整理组从中美会转至文建会，改名为资讯应用国字整理小组），共同整理中文文字，并解决中文资讯处理的技术问题。其中，字码编定的部分由谢清俊、张仲陶、杨键樵、黄克东教授负责，文字审查工作则有潘重规、周骏富、周何、何佑森、金祥恒等教授参与，并由王振鹄、张鼎锺等教授担任中文资讯交换码审查小组的成员^[7]。

台湾于次届亚洲学会年会上，提出共4,808字的“中文资讯交换码”；“中文资讯交换码”的架构为美方接受，但要求扩大编码字集。“国字整理小组”在1981年完成第二批，包括17,032个正体字、11,517个异体字；1987年再发表第三批，包括20,583个正体字。前后二次共计扩编至53,940个汉字字码，并完成64×64，32×32的机读字型；此外，为了方便电脑上的文字处理，又编制了“中国文字数据库”(Chinese Character Database，简称CCDB)，其中列出每个字属性如部首、笔画、读音以及各种对应和输入码^[6]。

CCCII后来获得美国国会图书馆认可，称为东亚文字码（East Asian Character Code，EACC），并于1989年纳入美国国家标准（编号：ANSI/NISO Z39.64）。CCCII并已被OCLC和RLIN（Research Libraries Information Network）用作中日韩文的书目字码标准^[8]。

“国字整理小组”从1979至1989十年间，共计整理、搜集了75,684个汉字（正体字44,167、异体字31,517）^[7]。随着张仲陶教授在1997年去世，以及谢清俊教授将发展方向转往汉字构形数据库，CCCII已停止维护、更新^[9]^[10]。

Remove ads

编码结构

该编码以三个字节来代表一个中文字，每字节为7位元，并根据ISO 2022规格以94×94×94的编码空间安放字符，最多可收纳830,584个。

一个94×94的编码空间称为面（Plane）。CCCII共有94个面。以6个面组合成为1个层（Layer）。因此CCCII共有16个层，除第16层仅含4面外，其余各层均含有6个面（即15×6+4=94）。这16个层相叠，形成一个向下延伸的三度空间，由此形成关联。

第1个层放置正体字（正体字按常用、备用、罕用的顺序分群并依序排列，各字群再按先部首、次笔画数、最后笔顺的次序排列）；第2至第13个层，放置异体字，其中第2层专放简体字，第13层放置日文汉字。这样的三度空间设计使检索某一汉字的异体字变得容易，如：強、强、彊三字的后两个字节是一样的^[11]。

中文资讯交换码

简介

编码结构

另见

注释

外部链接

Wikiwand - on