热门问题
时间线
聊天
视角
中文資訊交換碼
漢字信息交換碼、漢字資訊交換碼 来自维基百科,自由的百科全书
Remove ads
中文資訊交換碼(Chinese Character Code for Information Interchange,簡稱CCCII),又名全漢字標準交換碼[1],是由中華民國政府發展的字符集和編碼方案,由獲得中研院中美科學學術合作委員會與文建會(後升格為文化部)贊助的「國字整理小組」(全名為:資訊應用國字整理小組)所提出[3]。開發目的是將其作為中文交換碼,使中文資訊交換更加便利。
此交換碼每個字用三個位元組存儲,在節約空間方面不如大五碼,又不像中文標準交換碼成為官方標準,所以未被電腦業界廣泛採納[4]。香港各大學圖書館在2003年由舊有的CCCII系統換成UTF-8[5][6]。故現僅臺灣和美國仍在使用,且只用於大學圖書館的線上目錄檢索系統。
Remove ads
簡介
1979年11月,加州史丹佛大學召開一場籌劃東亞圖書館自動化的會議,希望訂定中文交換碼的標準作為自動化之根據,以解決使用電腦處理東亞語文資料的問題。那時的漢字碼標準只有日本產業規格訂定的JIS C6226,但由於日本漢字的數目、字型皆與中文有相當程度的差異,難以作為代表,經臺灣和美國東亞圖書館華裔與會者強力反對後,決定先擱置決議,由臺灣代表謝清俊在次年三月亞洲研究學會年會,提出臺灣方面的漢字編碼方案互作比較[7][1][8]。
謝清俊教授返國後,上書政務委員李國鼎及國科會、中研院中美科學學術合作委員會(簡稱中美會)等單位,集合國內一批文字學家、圖書館學家及電腦科學家,組成「中文資訊處理研究用字小組」(1985年其國字整理組從中美會轉至文建會,改名為資訊應用國字整理小組),共同整理中文文字,並解決中文資訊處理的技術問題。其中,字碼編定的部份由謝清俊、張仲陶、楊鍵樵、黃克東教授負責,文字審查工作則有潘重規、周駿富、周何、何佑森、金祥恆等教授參與,並由王振鵠、張鼎鍾等教授擔任中文資訊交換碼審查小組的成員[8]。
臺灣於次屆亞洲學會年會上,提出共4,808字的「中文資訊交換碼」;「中文資訊交換碼」的架構為美方接受,但要求擴大編碼字集。「國字整理小組」在1981年完成第二批,包括17,032個正體字、11,517個異體字;1987年再發表第三批,包括20,583個正體字。前後二次共計擴編至53,940個漢字字碼,並完成64×64,32×32的機讀字型;此外,為了方便電腦上的文字處理,又編製了「中國文字資料庫」(Chinese Character Database,簡稱CCDB),其中列出每個字屬性如部首、筆畫、讀音以及各種對應和輸入碼[7]。
CCCII後來獲得美國國會圖書館認可,稱為東亞文字碼(East Asian Character Code,EACC),並於1989年納入美國國家標準(編號:ANSI/NISO Z39.64)。CCCII並已被OCLC和RLIN(Research Libraries Information Network)用作中日韓文的書目字碼標準[9]。
「國字整理小組」從1979至1989十年間,共計整理、蒐集了75,684個漢字(正體字44,167、異體字31,517)[8]。隨著張仲陶教授在1997年去世,以及謝清俊教授將發展方向轉往漢字構形資料庫,CCCII已停止維護、更新[10][11]。
Remove ads
編碼結構
該編碼以三個位元組來代表一個中文字,每位元組為7位元,並根據ISO 2022規格以94×94×94的編碼空間安放字符,最多可收納830,584個。
一個94段(Section)×94位(Position)的編碼空間稱為面(Plane)。CCCII共有94個面。以6個面組合成為1個層(Layer)。因此CCCII共有16個層,除第16層僅含4面外,其餘各層均含有6個面(即15×6+4=94)。這16個層相疊,形成一個向下延伸的三度空間,由此形成關聯。
第1個層放置正體字(正體字按常用、備用、罕用的順序分群並依序排列,各字群再按先部首、次筆畫數、最後筆順的次序排列);第2至第13個層,於同段且同位處放置與正體字對應的異體字,其中第2層專放簡體字,第13層放置日文漢字。這樣的三度空間設計使檢索某一漢字的異體字變得容易,如:強、强、彊三字的後兩個位元組是一樣的[12]。
版本
中文資訊交換碼第一冊於1980年4月出版,僅使用了第1面的一部分,編定的字碼包括:[13]:1–17
本冊字表所用的字體主要採用上海印刷廠的鉛字,但仍有二十餘字缺字,則以照相打字後再拆解拼湊補足。[17]
中文資訊交換碼第二冊、中文資訊交換碼異體字表皆於1981年2月出版。[18]:1–3
中文資訊交換碼第二冊第二版、中文資訊交換碼異體字表第二冊第二版先後於1982年11月、12月出版,修訂內容包含:[19]:17–18,123–127
- 發現1982年修訂並正式啟用的教育部《常用國字標準字體表》相較於1979年版刪去7字並加入8字[註 2],刪去的7字不隨之從最常用字區中移出,而加入的8字除了「羋」字補收入最常用字區(216330)以外,其餘7字均已編入次常用字區而維持不動,不隨之自移入最常用字區;
- 刪除100組重複出現字;
- 有4字互為異體字,移入異體字表;
- 有4字位置排錯(垮、垢;躡、躪),兩兩一組互換字碼;
- 部首列錯,更正7字;字形修正152字;筆劃錯誤204字。
本次修訂後,整套中文資訊交換碼於中文字部分計收最常用字4,808字、次常用字17,077字、自最常用字或次常用字衍生之異體字11,660字(其中含簡體字3,752字),總計33,545個中文字。
中文資訊交換碼第二冊第三版、中文資訊交換碼異體字表[註 3]第二冊第三版皆於1985年5月出版,修訂內容包含:[21]:17–18,31–38
- 根據1982年《常用國字標準字體表》、《次常用國字標準字體表》修訂字形;
- 第二冊第二版曾刪除的字當中有37字符合教育部標準,填回原位;
- 刪除34組重複出現字;
- 有異體字47字誤編入正體字區,改移入異體字表;
- 第二冊、第二冊第二版字表所用的字體皆為手寫楷體,本次修訂時改用電腦製版之明體。
本次修訂後,整套中文資訊交換碼於中文字部分計收「常用字集」4,808字、「備用字集」17,032字[註 4]、自最常用字或次常用字衍生之異體字11,517字(其中含簡體字3,625字[22]:1–2),總計33,357個中文字。
Remove ads
中文資訊交換碼第三冊於1987年2月出版,稱為「罕用字集」,編定的字碼包括:[23]:編輯說明1–3
修訂內容則包含:[23]:附錄1–10
- 部首列錯,更正75字,字碼則不變;
- 刪除26組重複出現字;
- 更正第二冊字表中錯誤的字形5字。
中文資訊交換碼異體字表第一次綜合修訂稿於1989年6月出版,修訂內容包含:[24]
- 發現先前未對應任何異體字的正體字中,有些實際上有其異體字;
- 先前被列為異體字的,有些實際上為非異體字的通用字與假借字;
- 罕用字組中誤收到異體字二萬餘字,必須改移入異體字表;
- 有戶籍用字約九千字,須加入異體字表。
本次異體字表所收的字數當時並未精確統計,後來整理得到「異體字資料屬性卡」30,646字。[25]
中文資訊交換碼異體字表(增修版)於1994年6月出版,修訂內容包含:[25]
- 根據1986年第一版《漢語大字典》增收新字,填入字表,但當第3層至第12層的10個格子皆已用盡時,則添於列尾格子之外,暫不賦予字碼;
- 研判字表所列之異體字中,有誤寫字、另為他字、被字書指為訛誤、假借字、筆勢略異字、古今字等情形,以符號在字旁註記。
本次增修僅在第一次綜合修訂稿上添加新字,以及在字旁加註符號,故不稱之為「第二次綜合修訂稿」。
Remove ads
另見
注釋
參考文獻
外部連結
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads