GB 2312
维基百科,自由的 encyclopedia
GB/T 2312[注 1],GB/T 2312—80 或 GB/T 2312—1980 是中华人民共和国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》,通常简称GB(“国标”汉语拼音首字母),又称GB0,由中国国家标准总局于1980年发布,1981年5月1日实施。GB/T 2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB/T 2312。
概述
MIME / IANA | GB_2312-80 (EUC 名为GB2312 ) |
---|---|
别名 | iso-ir-58, chinese, csGB2312, csISO58GB231280 |
语言 | 简体中文, 英文 部分支援: 繁体中文, 西里尔文, 希腊文 |
标准 | GB/T 2312-1980 |
分类 | 可支援ISO-2022双字节字元集,中日韩编码 |
拓展成 | ISO-IR-165 |
编码格式 | EUC-CN (GB2312 ),HZ-GB-2312 |
前用 | 中文电码 |
后续 | GBK,GB 18030 |
其他相关编码 | JIS X 0208,KS X 1001 |
GB/T 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个字符。
GB/T 2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。但对于人名、古汉语等方面出现的罕用字和繁体字,GB/T 2312不能处理,而是由一系列的国标辅助集负责编码和显示(如GB/T 12345《信息交换用汉字编码字符集 第一辅助集》、GB/T 7589 《信息交换用汉字编码字符集 第二辅助集》及GB/T 7590《信息交换用汉字编码字符集 第四辅助集》),但是 ISO-2022-CN-EXT 最终未给国标除了 GB/T 2312 以外的其他辅助集提供逃逸字符串[1][2]。后来GBK及GB 18030汉字字符集相继出现以解决这些问题。
分区表示
GB/T 2312 中对所收汉字进行了“分区”处理,每区含有94个汉字/符号,共计94个区。实际上,GB/T 2312 只使用了87区。
用所在的区和位来表示字符(实际上就是码位)的方法称为区位码(或许叫“区位号”更为恰当[来源请求])。例如“万”字在45区82位,所以“万”字的区位码是 45-82(45是“区码”,82是“位码”)。在储存进电脑时,电脑会在区位码上加上特定数字后才保存进内存以确保和其他编码兼容(如 ASCII)。转码后,区位码的“区码”会变成“高位字节”,而“位码”会变成“低位字节”。
下列是 GB/T 2312 分区后在区段内储存的字符:
- 01~09区(682个):特殊符号、数字、英文字符、制表符等,包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母等在内的682个全角字符;
- 10~15区:空区,留待扩展;在附录3,第10区推荐作为 GB 1988—80 中的94个图形字符区域(即第3区字符之半形版本)。
- 16~55区(3755个):常用汉字(也称一级汉字),按拼音排序;
- 56~87区(3008个):非常用汉字(也称二级汉字),按部首/笔画排序;
- 88~94区:空区,留待扩展。
字节结构
在 GB 2312 内,每个汉字及符号的码位使用两个字节来表示。第一个字节称为“高位字节”,对应分区的编号(把区位码的“区码”加上特定值);第二个字节称为“低位字节”,对应区段内的个别码位(把区位码的“位码”加上特定值)。