GB 2312
維基百科,自由的 encyclopedia
GB/T 2312[註 1],GB/T 2312—80 或 GB/T 2312—1980 是中華人民共和國國家標準簡體中文字符集,全稱《信息交換用漢字編碼字符集·基本集》,通常簡稱GB(「國標」漢語拼音首字母),又稱GB0,由中國國家標準總局於1980年發布,1981年5月1日實施。GB/T 2312編碼通行於中國大陸;新加坡等地也採用此編碼。中國大陸幾乎所有的中文系統和國際化的軟體都支持GB/T 2312。
概述
MIME / IANA | GB_2312-80 (EUC 名為GB2312 ) |
---|---|
別名 | iso-ir-58, chinese, csGB2312, csISO58GB231280 |
語言 | 簡體中文, 英文 部分支援: 繁體中文, 西里爾文, 希臘文 |
標準 | GB/T 2312-1980 |
分類 | 可支援ISO-2022雙字節字元集,中日韓編碼 |
拓展成 | ISO-IR-165 |
編碼格式 | EUC-CN (GB2312 ),HZ-GB-2312 |
前用 | 中文電碼 |
後續 | GBK,GB 18030 |
其他相關編碼 | JIS X 0208,KS X 1001 |
GB/T 2312標準共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個;同時收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母在內的682個字符。
GB/T 2312的出現,基本滿足了漢字的計算機處理需要,它所收錄的漢字已經覆蓋中國大陸99.75%的使用頻率。但對於人名、古漢語等方面出現的罕用字和繁體字,GB/T 2312不能處理,而是由一系列的國標輔助集負責編碼和顯示(如GB/T 12345《信息交換用漢字編碼字符集 第一輔助集》、GB/T 7589 《信息交換用漢字編碼字符集 第二輔助集》及GB/T 7590《信息交換用漢字編碼字符集 第四輔助集》),但是 ISO-2022-CN-EXT 最終未給國標除了 GB/T 2312 以外的其他輔助集提供逃逸字符串[1][2]。後來GBK及GB 18030漢字字符集相繼出現以解決這些問題。
分區表示
GB/T 2312 中對所收漢字進行了「分區」處理,每區含有94個漢字/符號,共計94個區。實際上,GB/T 2312 只使用了87區。
用所在的區和位來表示字符(實際上就是碼位)的方法稱為區位碼(或許叫「區位號」更為恰當[來源請求])。例如「万」字在45區82位,所以「万」字的區位碼是 45-82(45是「區碼」,82是「位碼」)。在儲存進電腦時,電腦會在區位碼上加上特定數字後才保存進內存以確保和其他編碼兼容(如 ASCII)。轉碼後,區位碼的「區碼」會變成「高位字節」,而「位碼」會變成「低位字節」。
下列是 GB/T 2312 分區後在區段內儲存的字符:
- 01~09區(682個):特殊符號、數字、英文字符、制表符等,包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母等在內的682個全形字符;
- 10~15區:空區,留待擴展;在附錄3,第10區推薦作為 GB 1988—80 中的94個圖形字符區域(即第3區字符之半形版本)。
- 16~55區(3755個):常用漢字(也稱一級漢字),按拼音排序;
- 56~87區(3008個):非常用漢字(也稱二級漢字),按部首/筆畫排序;
- 88~94區:空區,留待擴展。
字節結構
在 GB 2312 內,每個漢字及符號的碼位使用兩個字節來表示。第一個字節稱為「高位字節」,對應分區的編號(把區位碼的「區碼」加上特定值);第二個字節稱為「低位字節」,對應區段內的個別碼位(把區位碼的「位碼」加上特定值)。