热门问题
时间线
聊天
视角
ISO/IEC 8859
8位字符編碼的一系列標準 来自维基百科,自由的百科全书
Remove ads
ISO/IEC 8859,是國際標準化組織(ISO)及國際電工委員會(IEC)聯合制定的一系列8位元字符集的標準。除了已廢除的ISO/IEC 8859-12,現在該標準定義了15個字符集。目前制定 ISO/IEC 8859的工作組已經解散,該標準由 ISO/IEC 10646 (同等於統一碼/Unicode)取代。
引言
ASCII收錄了空格及94個「可印刷字符」,足以給英語使用。但是,其他使用拉丁字母的語言(主要是歐洲國家的語言),都有一定數量的附加符號字母,故可以使用ASCII及控制字符以外的區域來儲存及表示。
除了使用拉丁字母的語言外,使用西里爾字母的東歐語言、希臘語、泰語、現代阿拉伯語、希伯來語等,都可以使用這個形式來儲存及表示。
1982年,ANSI與ECMA合作開啟此項工作。1985年,公布了ECMA-94,即後來的ISO/IEC 8859 parts 1, 2, 3, 4。第5、6、7、8、9、10、11、12、13、14、15、16部分分別公布於1988年、1987年、1987年、1987年、1989年、1992年、2001年、1997年(正式宣布放棄研發)、1998年、1998年、1999年、2001年。
ISO 8859是基於ISO 2022標準的基礎上,在ISO 2022規定的G0碼位區域表示ISO 646的95個可列印字符;在C0與C1的控制字符碼位區域,表示ISO 6429定義的控制字符;而在G1碼位區域,則是由ISO 8859的16個部分各自定義擴展的可列印字符。因此,ISO 8859完全兼容7位的ASCII碼。ISO 8859沒有使用ISO 2022中的G2、G3區域,也不再使用ISO 2022定義的用來在不同的字符編碼集或在同一個編碼集的G0、G1、G2、G3區域間轉換的「控制字符轉義序列」。
ISO 8859統一了此前各國各語言的單獨編碼的混亂局面;廢棄了ASCII/ISO 646使用的退格鍵開始的轉義序列來表示變音字母的方法,而是在G1區域直接編碼表示變音字母。
ISO 8859是在1980年代中期甚至1990年代才陸續公布的。因此,微軟公司與IBM公司等此前已經在其產品,如MS-DOS, IBM PC上使用了各自定義的編碼字符集(即「代碼頁」Codepage)。ISO 8859公布後,也出現了一些廣泛使用的代碼頁兼容並擴充了ISO 8859。例如,Windows代碼頁1252作為英文及一些西歐語言版Windows作業系統的默認編碼(locale),是 ISO 8859-1 的超集。主要擴充之處是把ISO 8859-1 的保留未用的C1區(即碼位0x80-0x9F)用來編碼一些可列印字符:€ ‚ ƒ „ … † ‡ ˆ ‰ Š ‹ Œ Ž ‘ ’ “ ” • – — ˜ ™ š › œ ž Ÿ 共計27個,其中各種引號就有8個。
Remove ads
各種ISO 8859字符集
- ISO/IEC 8859-1 (Latin-1) - 西歐語言
- ISO/IEC 8859-2 (Latin-2) - 中歐語言
- ISO/IEC 8859-3 (Latin-3) - 南歐語言。世界語也可用此字符集顯示。
- ISO/IEC 8859-4 (Latin-4) - 北歐語言
- ISO/IEC 8859-5 (Cyrillic) - 斯拉夫語言
- ISO/IEC 8859-6 (Arabic) - 阿拉伯語
- ISO/IEC 8859-7 (Greek) - 希臘語
- ISO/IEC 8859-8 (Hebrew) - 希伯來語(視覺順序)
- ISO 8859-8-I - 希伯來語(邏輯順序)
- ISO/IEC 8859-9(Latin-5 或 Turkish)- 它把Latin-1的冰島語字母換走,加入土耳其語字母。
- ISO/IEC 8859-10(Latin-6 或 Nordic)- 北日耳曼語支,用來代替Latin-4。
- ISO/IEC 8859-11 (Thai) - 泰語,從泰國的 TIS620 標準字集演化而來。
- ISO/IEC 8859-13(Latin-7 或 Baltic Rim)- 波羅的語族
- ISO/IEC 8859-14(Latin-8 或 Celtic)- 凱爾特語族
- ISO/IEC 8859-15 (Latin-9) - 西歐語言,加入Latin-1欠缺的芬蘭語字母和大寫法語重音字母,以及歐元(€)符號。
- ISO/IEC 8859-16 (Latin-10) - 東南歐語言。主要供羅馬尼亞語使用,並加入歐元符號。
由於英語沒有任何重音字母(不計外來詞),故可使用以上十五個字集中的任何一個來表示。
至於德語方面,因它除了 A-Z, a-z 外,只用 Ä, Ö, Ü, ä, ö, ß, ü 七個字母,而所有拉丁字集(1-4, 9-10, 13-16)均有此七個字母,故德語可使用以上十個字集中的任何一個來表示。
此系列中沒有-12號的原因是,此計劃原本要設計成一個包含塞爾特語族字符集的「Latin-7」,但後來塞爾特語族變成了ISO 8859-14 / Latin-8。亦有一說謂-12號本來是預留給印度天城體梵文的,但後來卻擱置了。
Remove ads
基本結構
每個字集定義最多96個字母或符號,在0xA0-0xFF根據不同字符集放入不同的字符。
在0xA0的位置是「不換行空格」。
在0xAD的位置,大部分都放入了「選擇性連字號」(即只在一個文字在它的中間換行時才出現的連字號),若你使用的瀏覽器支援選擇性連字號,上表將不會有任何顯示。
黃色的是ISO/IEC 8859-7:2003版本及ISO/IEC 8859-8:1999版本新增的符號。LRM是「左至右符號」、RLM是「右至左符號」。
綠色的是該字集未有定義該位置。
0x00-0x1F、0x7F、0x80-0x9F在此字符集中未有定義。(控制字符是由ISO/IEC 6429定義)。
Remove ads
ISO 8859與ISO 8859-n的關係
在ISO/IEC 8859-n之中,國際標準化組織只替每個字符集定義了最多96個字符(0xA0-0xFF)。
ISO-8859-n(在ISO與8859之間加上一連字號)則是由IANA根據ISO/IEC 8859-n所定義的編碼表。它除了ISO/IEC 8859-n的字符外,還包括ASCII(0x20-0x7E)字符及65個控制字符(0x00-0x1F及0x7F-0x9F)。
類似ISO 8859的編碼
ISO 8859-12這個號碼本來是預留給印度天城體梵文的,但最終未有定義。印度有自己的編碼-ISCII。
JIS X 0201是日語片假名的字符集標準,能與ISO 8859兼容。
VISCII是越南語在本土以外的僑民最常用的字符集標準。但因越南語有超過一百個重音字母,故不兼容ISO 8859。越南國家標準另有符合ISO8859標準的字符集,但字符需要組合,像泰文一樣。
ISO 6438是非洲字母的字符集,但甚少被採納。
發展狀況
ISO/IEC 8859 標準由 ISO/IEC 第一聯合技術委員會第二分委員會第三工作組(ISO/IEC JTC 1/SC 2/WG 3)管理。2004 年 6 月,第三工作組解散,管理工作移交給第二分委員會。這份標準現在不再更新,因為這個分委員會唯一的工作組——第二工作組,正著力於ISO/IEC 10646的開發。
參看
外部連結
- 由國際標準化組織出版的ISO/IEC 8859標準,可從以下網址獲取(需要付費)ISO catalogue site 及 ANSI eStandards Store(頁面存檔備份,存於網際網路檔案館)。
- 部分由ISO/IEC JTC 1/SC 2/WG 3出版的部分ISO/IEC 8859最後審核草案(PDF版本),可從 WG 3網站 獲取:
- ISO/IEC 8859-1:1998 - 8-bit single-byte coded graphic character sets, Part 1: Latin alphabet No. 1 (draft dated February 12, 1998, published April 15, 1998)
- ISO/IEC 8859-4:1998 - 8-bit single-byte coded graphic character sets, Part 4: Latin alphabet No. 4 (draft dated February 12, 1998, published July 1, 1998)
- ISO/IEC 8859-7:1999 - 8-bit single-byte coded graphic character sets, Part 7: Latin/Greek alphabet (draft dated June 10, 1999; superseded by ISO/IEC 8859-7:2003, published October 10, 2003)
- ISO/IEC 8859-10:1998 - 8-bit single-byte coded graphic character sets, Part 10: Latin alphabet No. 6 (draft dated February 12, 1998, published July 15, 1998)
- ISO/IEC 8859-11:1999 - 8-bit single-byte coded graphic character sets, Part 11: Latin/Thai character set (draft dated June 22, 1999; superseded by ISO/IEC 8859-11:2001, published Dec 15, 2001)
- ISO/IEC 8859-13:1998 - 8-bit single-byte coded graphic character sets, Part 13: Latin alphabet No. 7 (draft dated April 15, 1998, published October 15, 1998)
- ISO/IEC 8859-15:1998 - 8-bit single-byte coded graphic character sets, Part 15: Latin alphabet No. 9 (draft dated August 1, 1997; superseded by ISO/IEC 8859-15:1999, published March 15, 1999)
- ISO/IEC 8859-16:2000 - 8-bit single-byte coded graphic character sets, Part 16: Latin alphabet No. 10 (draft dated November 15, 1999; superseded by ISO/IEC 8859-16:2001, published July 15, 2001)
- ECMA standards, which in intent correspond exactly to the ISO/IEC 8859 character set standards, can be found at:
- Standard ECMA-94(頁面存檔備份,存於網際網路檔案館):8-Bit Single Byte Coded Graphic Character Sets - Latin Alphabets No. 1 to No. 4 2nd edition (June 1986)
- Standard ECMA-113(頁面存檔備份,存於網際網路檔案館):8-Bit Single-Byte Coded Graphic Character Sets - Latin/Cyrillic Alphabet 3rd edition (December 1999)
- Standard ECMA-114(頁面存檔備份,存於網際網路檔案館):8-Bit Single-Byte Coded Graphic Character Sets - Latin/Arabic Alphabet 2nd edition (December 2000)
- Standard ECMA-118:8-Bit Single-Byte Coded Graphic Character Sets - Latin/Greek Alphabet (December 1986)
- Standard ECMA-121(頁面存檔備份,存於網際網路檔案館):8-Bit Single-Byte Coded Graphic Character Sets - Latin/Hebrew Alphabet 2nd edition (December 2000)
- Standard ECMA-128(頁面存檔備份,存於網際網路檔案館):8-Bit Single-Byte Coded Graphic Character Sets - Latin Alphabet No. 5 2nd edition (December 1999)
- Standard ECMA-144(頁面存檔備份,存於網際網路檔案館):8-Bit Single-Byte Coded Character Sets - Latin Alphabet No. 6 3rd edition (December 2000)
- 《中華民國國家標準》制定了9個標準以對應ISO/IEC 8859的字符集
- CNS 13246(頁面存檔備份,存於網際網路檔案館) 資訊處理–8位元單一位元組碼化圖形字元集(第1部:拉丁字母第一號)
- CNS 13247(頁面存檔備份,存於網際網路檔案館) 資訊處理–8位元單一位元組碼化圖形字元集(第2部:拉丁字母第二號)
- CNS 13325(頁面存檔備份,存於網際網路檔案館) 資訊處理–8位元單一位元組碼化圖形字元集(第3部:拉丁字母第三號)
- CNS 13326(頁面存檔備份,存於網際網路檔案館) 資訊處理–8位元單一位元組碼化圖形字元集(第4部:拉丁字母第四號)
- CNS 13327(頁面存檔備份,存於網際網路檔案館) 資訊處理–8位元單一位元組碼化圖形字元集(第5部:拉丁/斯拉夫字母)
- CNS 13328(頁面存檔備份,存於網際網路檔案館) 資訊處理–8位元單一位元組碼化圖形字元集(第9部:拉丁字母第五號)
- CNS 13384(頁面存檔備份,存於網際網路檔案館) 資訊處理–8位元單一位元組碼化圖形字元集(第6部:拉丁/阿拉伯字母)
- CNS 13385(頁面存檔備份,存於網際網路檔案館) 資訊處理–8位元單一位元組碼化圖形字元集(第7部:拉丁/希臘字母)
- CNS 13386(頁面存檔備份,存於網際網路檔案館) 資訊處理–8位元單一位元組碼化圖形字元集(第8部:拉丁/希伯來字母)
- 《中華人民共和國國家標準》制定了5個標準以對應ISO/IEC 8859的字符集
- GB/T 15273.1-1994 信息處理 八位單字節編碼圖形字符集 第一部分:拉丁字母一
- GB/T 15273.2-1995 信息處理 八位單字節編碼圖形字符集 第二部分:拉丁字母二
- GB/T 15273.3-1995 信息處理 八位單字節編碼圖形字符集 第三部分:拉丁字母三
- GB/T 15273.4-1995 信息處理 八位單字節編碼圖形字符集 第四部分:拉丁字母四
- GB/T 15273.7-1996 信息處理 八位單字節編碼圖形字符集 第七部分:拉丁/希臘字母
Remove ads
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads