热门问题
时间线
聊天
视角

中文標準交換碼

来自维基百科,自由的百科全书

Remove ads

中文標準交換碼Chinese Standard Interchange Code,簡稱CSIC),是中華民國國家標準11643號,簡稱CNS 11643,舊名通用漢字標準交換碼Chinese Ideographic Standard Code for Information Interchange,簡稱CISCII),是中華民國政府中文資訊處理制定的字元編碼方案,與許多學術圖書館系統採用的中文資訊交換碼同屬於中文交換碼。中文標準交換碼基於ISO 2022定義,和ASCII相容,其EUC版本為EUC-TW

快速預覽 別名, 語言 ...
Remove ads

簡介

1980年9月,行政院國家科學委員會集合編碼專家、學者在溪頭舉行會議,建立國家中文資訊標準交換碼的編碼原則,並報請行政院核定。隔年,行政院函令國科會教育部中央標準局主計處電子處理資料中心組成專案作業小組,推動編碼工作。經多次會商,於1983年10月底完成「通用漢字標準交換碼」的試用版,試行二年。試用期滿後,國科會與主計處電資中心邀集相關單位與業者組成技術小組,檢討試用結果,並根據檢討結果修訂編碼原則予以重編。1986年8月4日由經濟部中央標準局(後改名為標準檢驗局)正式公佈,取名「通用漢字標準交換碼」,其內容包括第一字面、第二字面共13,051字[1]

1980年代萬「碼」奔騰,業界使用各種不同的字符編碼,如大五碼王安碼IBM 5550碼公會碼電信碼[2]倚天碼等;CNS11643與大五碼字數相同(大五碼有13,053字,但有兩個重碼)。藉由此國家標準交換碼的公布與使用,做為各種不同內碼間的橋梁,使得不同的內碼也可以互相溝通和交換,資料可共享。

為因應各界對擴大中文字元集的需求,中央標準局於1990年委託資訊工業策進會進行擴編。CNS 11643於1992年使用至第七字面,共48,027字,並更名為「中文標準交換碼」。2003年,標準檢驗局委託中文數位化技術推廣基金會再次擴編,於2004年推出新版的CNS11643,將編碼空間由原先規定的十六字面增加到八十字面,並使用至第十五字面。2014年,使用第十七、十九字面。2021年,使用第二十四字面。CNS11643現有兩個細部標準,「中文字基礎部件及部件屬性」(CNS11643-2 )以及「 中文字筆畫分類」(CNS11643-3)[3][4]

「CNS11643中文交換碼全字庫」為1999年時,由主計處電資中心委託中文數位化技術推廣基金會建置,用以解決中文碼查詢、轉碼與缺字問題。為配合2012年的行政院組織改造,全字庫改由研考會辦理,自2014年又由繼承研考會業務的國家發展委員會管理。2022年8月27日數位發展部成立後,網站管理機構調整為數位部[5]。全字庫目前已收納10萬8,800多個文字及符號。若扣除第八和第九字面中的非漢字字元以及第一字面中的符號注音部首漢字構件等字元,以有倉頡碼屬性的字來計算,大約有9萬6,600多個漢字[6][7]

Remove ads

版本

更多資訊 年份, 標準名稱 ...
Remove ads

編碼格式

CNS 11643遵循ISO/IEC 2022所規定的七位元94個圖形字元英語Graphic character多位元組延伸編碼格式[4],以2個字節(byte)為中文碼編碼單位,以十六進位制文數字表示,並且避開控制字元所在的範圍。字面字集之排列,大抵以使用頻率為次序,第一字面以常用字為主,第二字面以次常用字為主,第三字面以部分罕用字及較常用異體字為主,其後的字面大多以罕用字、異體字、教育部閩客語用字及戶政、役政、地政等機關用字為主。在每一字面中,依先筆畫後部首排列順序來編訂字碼(每一字面均以文字筆畫總數為第一次序,筆劃數同則按照部首為次序,部首同再按照筆順為次序)[8]

CNS 11643採用多字面編碼結構,並藉助ISO/IEC 2022所規定的逸出順序(escape sequence)和調用控制符切換字面。因此,同樣的正規字元碼在CNS 11643的不同字面會代表不同的漢字(例如:第1字面字元碼454A為中文字「日」,而第2字面的454A是中文字「碇」)。CNS 11643在新版中規定了延伸字元碼,作為任一字元的唯一字元碼。中文標準交換碼延伸字元碼是在正規字元碼前,附加該字元所屬字面的字面指示碼[4]

終結字元

目前CNS11643的1至7字面之終結字元(最後字元、最終位元組)[F]已獲國際標準組織ISO正式登記為47至4D,亦可使用於字集之指定[8][9]。依據ISO 237之規定,各國的國家標準若要成為國際間之中文資訊交換標準,必須向國際標準組織申請註冊,並由國際標準組織正式公佈,如此全球各國即可依國際標準公佈之終結字元進行資料交換。

CNS 11643-1992所包括的七個字面,每個字面均分別向ISO秘書處歐洲計算機製造商協會申請相對應之終結字元。經由資訊工業策進會之協助申請,1993年2月1日CNS 11643第一、第二字面正式獲得終結字元:47和48,1994年3月25日CNS 11643第三至第七字面也正式獲得終結字元:49–4D。

更多資訊 CNS字面, CNS暫用終結字元 ...
Remove ads

最新版本

2021年版CNS 11643字面配置如下:

  • 第一字面:字碼區間2121h至4243h為符號區(2009年在4242h新增歐元符號€,4243h新增國字);字碼區間4421h至7D4Bh,共編入中文字5,401個;字集來源除教育部常用國字標準字體表」所列4,808字外,並優先收編國中國小教科書常用字587字及異體字6字。另外在2009年,在字碼4244h至4254h,增補閩南語用拉丁符號17個[10]
  • 第二字面:字碼區間由2121h至7245h(2023年在7245h新增漢字「礴」(U+7934)),故編入中文字7,651個;字集來源除教育部「次常用國字標準字體表」所列6,330字外,並篩選編入教育部「罕用國字標準字體表」表中使用頻率較高之1,320字。
  • 第三字面:字碼區間2121h至6246h,共編入中文字6,148個;字集來源為1988年6月行政院主計處電子處理資料中心暫編之使用者加字區第14字面前段;字碼區間6448h至672Ah為247個美國香港提報字[11]
  • 第四字面:字碼區間2121h至6E5Ch,共編入中文字7,298個;字集來源除1988年6月行政院主計處電子處理資料中心暫編之使用者加字區第14字面後段171字外,並加入戶役政及其他使用單位、ISO/IEC 10646-2:2001漢字集、資訊業次常用字7,127字。
  • 第五字面:字碼區間2121h至7C51h,目前編入中文字8,603個字;字集來源為未編入前4個字面之教育部罕用字
  • 第六字面:字碼區間2121h至647Ah,共編入中文字6,388個;字集來源為未編入前5個字面,且筆畫在14畫或以下之教育部異體字。
  • 第七字面:字碼區間2121h至6655h,共編入中文字6,539個;字集來源為未編入前6個字面,且筆畫在15畫或以上之教育部異體字。
  • 第八字面:編入ISO/IEC 10646:2003 基本多文種平面中,未收錄到原CNS 11643版本中的非漢字。
  • 第九字面:字碼區間2121h至3557h,編入ISO/IEC 10646:2003 基本多文種平面中,未收錄到原CNS 11643版本中的非漢字;字碼區間7455h至7E7Eh,編入戶政字。
  • 第十字面:編入ISO/IEC 10646:2003未收錄到原CNS 11643版本中的CJK Extension B漢字。
  • 第十一字面:編入未收錄到原CNS 11643版本中的CJK Extension B, C, D漢字與地政字、教育部閩南語客家語母語用字。
  • 第十二字面:為戶政字,字碼區間6249h至627Eh,編入未收錄到原CNS 11643版本中的CJK Extension C漢字。
  • 第十三字面:為戶政字。
  • 第十四字面:為戶政字,字碼區間4B6Dh至6D79h,編入未收錄到原CNS 11643版本中的CJK基本區、CJK Extension A、CJK Extension C和CJK基本區急用漢字。
  • 第十五字面:字碼區間2121h至6D39h,共編入中文字6,831個戶政、役政用字;字碼區間6D3Ah至7E3Ch,編入未收錄到原CNS 11643版本中的CJK Extension C漢字。
  • 第十六字面:私人造字區。
  • 第十七字面:2014年起開始使用,屬於內政部戶政、地政等字。
  • 第十九字面:2014年起開始使用,屬於教育部異體字。
  • 第二十四字面:2021年起開始使用,2121h為醫藥用字;2122h至2123h為元素、化學、符號用字。[12]
  • 第18、20至23、25至80字面保留供未來使用。
Remove ads

與大五碼關係

大五碼資訊工業策進會與臺灣十三家資訊業者簽約,共同為「五大軟體專案」所設計的中文字符編碼。該字符編碼於1983年12月推出,共收錄13,053個漢字(有兩字重複編碼,故實際上只有13,051個字)、408個符號、33個控制字元[13],其字元的範圍與順序都和1983年10月推出的「通用漢字標準交換碼」試用版相同,但碼位不同。「通用漢字標準交換碼」在1986年推出正式版,刪除試用版的2個重複編碼字,調整了20個字的順序。

大五碼後來成為繁體中文社群最常用的電腦漢字字集標準,然而所涵蓋的字數不敷實際需求,造成廠商各自增刪,衍生成多種不同版本。2003年中文數位化技術推廣基金會接受經濟部標準檢驗局委託,召集國內業者代表、專家和學者,就大五碼字元表的原始版本和業界主要版本予以重整,稱為Big5-2003[14]。重整後的版本,去除了重複編碼,並新增7個中文字,以及370個符號,包括30個數字符號、24個部首、14個罕用符號、268個日本假名,以及34個表格符號[13]。其成果最後收錄至CNS 11643的附錄之中[15]

Remove ads

比較

中央標準局所公佈的《通用漢字標準交換碼》(後更名為《中文標準交換碼》,CNS11643)與1984年發布的業界事實標準五大碼(Big5)有共同之處:兩者都使用國字標準字體表為基礎,但是《中文標準交換碼》所定義的碼位更符合國字標準字體表所選定的字形。國字標準字體表本身並未定義字形的碼位,而是依賴於其他標準將字形賦予碼位。

其中,五大碼與現在的《中文標準交換碼》有部分收字差異:

更多資訊 國字, 字表序號[17] ...
Remove ads

參看

資料來源

外部連結

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads