热门问题
时间线
聊天
视角

中文资讯交换码

来自维基百科,自由的百科全书

中文資訊交換碼
Remove ads

中文资讯交换码Chinese Character Code for Information Interchange,简称CCCII),又名全汉字标准交换码[1],是由中华民国政府发展的字符集编码方案,由获得中研院中美科学学术合作委员会与文建会(后升格为文化部)赞助的“国字整理小组”(全名为:资讯应用国字整理小组)所提出[3]。开发目的是将其作为中文交换码,使中文资讯交换更加便利。

事实速览 语言, 标准 ...

此交换码每个字用三个位元组存储,在节约空间方面不如大五码,又不像中文标准交换码成为官方标准,所以未被电脑业界广泛采纳[4]。香港各大学图书馆在2003年由旧有的CCCII系统换成UTF-8[5][6]。故现仅台湾和美国仍在使用,且只用于大学图书馆线上目录检索系统

Remove ads

简介

1979年11月,加州史丹佛大学召开一场筹划东亚图书馆自动化的会议,希望订定中文交换码的标准作为自动化之根据,以解决使用电脑处理东亚语文资料的问题。那时的汉字码标准只有日本产业规格订定的JIS C6226,但由于日本汉字的数目、字型皆与中文有相当程度的差异,难以作为代表,经台湾和美国东亚图书馆华裔与会者强力反对后,决定先搁置决议,由台湾代表谢清俊在次年三月亚洲研究学会年会,提出台湾方面的汉字编码方案互作比较[7][1][8]

谢清俊教授返国后,上书政务委员李国鼎国科会中研院中美科学学术合作委员会(简称中美会)等单位,集合国内一批文字学家、图书馆学家及电脑科学家,组成“中文资讯处理研究用字小组”(1985年其国字整理组从中美会转至文建会,改名为资讯应用国字整理小组),共同整理中文文字,并解决中文资讯处理的技术问题。其中,字码编定的部份由谢清俊、张仲陶杨键樵黄克东教授负责,文字审查工作则有潘重规周骏富周何何佑森金祥恒等教授参与,并由王振鹄张鼎锺等教授担任中文资讯交换码审查小组的成员[8]

台湾于次届亚洲学会年会上,提出共4,808字的“中文资讯交换码”;“中文资讯交换码”的架构为美方接受,但要求扩大编码字集。“国字整理小组”在1981年完成第二批,包括17,032个正体字、11,517个异体字;1987年再发表第三批,包括20,583个正体字。前后二次共计扩编至53,940个汉字字码,并完成64×64,32×32的机读字型;此外,为了方便电脑上的文字处理,又编制了“中国文字资料库”(Chinese Character Database,简称CCDB),其中列出每个字属性如部首、笔画、读音以及各种对应和输入码[7]

CCCII后来获得美国国会图书馆认可,称为东亚文字码(East Asian Character Code,EACC),并于1989年纳入美国国家标准(编号:ANSI/NISO Z39.64)。CCCII并已被OCLC和RLIN(Research Libraries Information Network)用作中日韩文的书目字码标准[9]

“国字整理小组”从1979至1989十年间,共计整理、搜集了75,684个汉字(正体字44,167、异体字31,517)[8]。随著张仲陶教授在1997年去世,以及谢清俊教授将发展方向转往汉字构形资料库,CCCII已停止维护、更新[10][11]

Remove ads

编码结构

该编码以三个位元组来代表一个中文字,每位元组为7位元,并根据ISO 2022规格以94×94×94的编码空间安放字符,最多可收纳830,584个。

一个94Section)×94Position)的编码空间称为Plane)。CCCII共有94个面。以6个面组合成为1个Layer)。因此CCCII共有16个层,除第16层仅含4面外,其馀各层均含有6个面(即15×6+4=94)。这16个层相叠,形成一个向下延伸的三度空间,由此形成关联。

第1个层放置正体字(正体字按常用、备用、罕用的顺序分群并依序排列,各字群再按先部首、次笔画数、最后笔顺的次序排列);第2至第13个层,于同段且同位处放置与正体字对应的异体字,其中第2层专放简体字,第13层放置日文汉字。这样的三度空间设计使检索某一汉字的异体字变得容易,如:三字的后两个位元组是一样的[12]

版本

第一册

中文资讯交换码第一册于1980年4月出版,仅使用了第1面的一部分,编定的字码包括:[13]:1–17

更多信息 码位, 用途 ...

本册字表所用的字体主要采用上海印刷厂的铅字,但仍有二十馀字缺字,则以照相打字后再拆解拼凑补足。[17]

第二册

中文资讯交换码第二册、中文资讯交换码异体字表皆于1981年2月出版。[18]:1–3

中文资讯交换码第二册第二版、中文资讯交换码异体字表第二册第二版先后于1982年11月、12月出版,修订内容包含:[19]:17–18,123–127

  • 发现1982年修订并正式启用的教育部《常用国字标准字体表》相较于1979年版删去7字并加入8字[注 2],删去的7字不随之从最常用字区中移出,而加入的8字除了“芈”字补收入最常用字区(216330)以外,其馀7字均已编入次常用字区而维持不动,不随之自移入最常用字区;
  • 删除100组重复出现字;
  • 有4字互为异体字,移入异体字表;
  • 有4字位置排错(垮、垢;蹑、躏),两两一组互换字码;
  • 部首列错,更正7字;字形修正152字;笔划错误204字。

本次修订后,整套中文资讯交换码于中文字部分计收最常用字4,808字、次常用字17,077字、自最常用字或次常用字衍生之异体字11,660字(其中含简体字3,752字),总计33,545个中文字。

中文资讯交换码第二册第三版、中文资讯交换码异体字表[注 3]第二册第三版皆于1985年5月出版,修订内容包含:[21]:17–18,31–38

  • 根据1982年《常用国字标准字体表》、《次常用国字标准字体表》修订字形;
  • 第二册第二版曾删除的字当中有37字符合教育部标准,填回原位;
  • 删除34组重复出现字;
  • 有异体字47字误编入正体字区,改移入异体字表;
  • 第二册、第二册第二版字表所用的字体皆为手写楷体,本次修订时改用电脑制版之明体。

本次修订后,整套中文资讯交换码于中文字部分计收“常用字集”4,808字、“备用字集”17,032字[注 4]、自最常用字或次常用字衍生之异体字11,517字(其中含简体字3,625字[22]:1–2),总计33,357个中文字。

Remove ads

第三册

中文资讯交换码第三册于1987年2月出版,称为“罕用字集”,编定的字码包括:[23]:编辑说明1–3

更多信息 码位, 用途 ...

修订内容则包含:[23]:附录1–10

  • 部首列错,更正75字,字码则不变;
  • 删除26组重复出现字;
  • 更正第二册字表中错误的字形5字。

中文资讯交换码异体字表第一次综合修订稿于1989年6月出版,修订内容包含:[24]

  • 发现先前未对应任何异体字的正体字中,有些实际上有其异体字;
  • 先前被列为异体字的,有些实际上为非异体字的通用字与假借字;
  • 罕用字组中误收到异体字二万馀字,必须改移入异体字表;
  • 有户籍用字约九千字,须加入异体字表。

本次异体字表所收的字数当时并未精确统计,后来整理得到“异体字资料属性卡”30,646字。[25]

中文资讯交换码异体字表(增修版)于1994年6月出版,修订内容包含:[25]

  • 根据1986年第一版《汉语大字典》增收新字,填入字表,但当第3层至第12层的10个格子皆已用尽时,则添于列尾格子之外,暂不赋予字码;
  • 研判字表所列之异体字中,有误写字、另为他字、被字书指为讹误、假借字、笔势略异字、古今字等情形,以符号在字旁注记。

本次增修仅在第一次综合修订稿上添加新字,以及在字旁加注符号,故不称之为“第二次综合修订稿”。

Remove ads

另见

注释

参考文献

外部链接

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads