ISO/IEC 8859

Úvod

Nejstarší znakové kódy byly z historických důvodů a kvůli omezení některých přenosových datových protokolů omezené na 7 bitů. 95 tisknutelných znaků ASCII stačí pro vyměnu informací v moderní angličtině, většina jiných jazyků používajících latinku však potřebuje další symboly, které nejsou součástí ASCII. ISO/IEC 8859 řeší toto problém využitím osmého bitu v osmibitovém bytu, což poskytuje prostor pro dalších 96 tisknutelných znaků v oblasti G1. Kvůli tomu, že různé jazyky používají různá diakritická znaménka, je celkový počet znaků s diakritikou větší, než kolik se vejde do jednoho osmibitového znakového kódu. Proto bylo vytvořeno několik kódování, z nichž 10 je určeno pro různé varianty latinky.

Norma ISO/IEC 8859-n definuje pouze tisknutelné znaky v oblasti G1 a byla navržena tak, aby mohla být používána ve spojení s řídicí znaky mapovanými na nepřiřazené kódy. Za tímto účelem řada kódování registrovaných organizací IANA přidává sadu řídicích znaků C0 (řídicí znaky mapované na kódy 0 až 31) z ISO/IEC 646 a sadu řídicích znaků C1 (s kódy 128 až 159) z ISO 6429, což dává osmibitové kódování, ve kterém je většina nebo všechny kódy přiřazené. Upřednostňované MIME jméno nebo kanonické jméno (pokud upřednostňované MIME jméno není zadané) těchto kódování je ISO-8859-n. Mnoho lidé používá termíny ISO/IEC 8859-n a ISO-8859-n jako synonyma. Pouze kódování ISO/IEC 8859-11 nebylo přiřazeno takovéto jméno znakové sady, pravděpodobně kvůli tomu, že je téměř identické s TIS 620.

Remove ads

Znaky

Norma ISO/IEC 8859 byla navržena pro spolehlivou výměnu informací, nikoli pro typografii; proto neobsahuje všechny symboly potřebné pro vysoce kvalitní typografii, jako například nepovinné slitky, uvozovky, lomítka, atd. Sázecí systémy kvůli tomu často používají proprietární rozšíření ASCII (např. kódování Cork v sázecím programu TeX) nebo ISO/IEC 8859 nebo Unicode.

Základním pravidlem bylo, že do kódování nebyly zařazeny znaky nebo symboly, které nebyly částí široce používané znakové sady pro zpracování dat a nevyskytovaly se na klávesnici psacích strojů pro příslušný jazyk. Proto se do kódování dostaly uvozovky tvaru dvojitých šipek « a » používané některými evropskými jazyky, ale nikoli dvojité uvozovky „ a “ používané v angličtině a některých jiných jazycích. Do kódování nebyly zahrnuty slitky œ a Œ používané ve francouzštině, protože je lze psát jako 'oe'. Bylo také vynecháno Ÿ, potřebné pouze pro texty psané velkými písmeny. Tyto znaky však byly zahrnuty později do ISO/IEC 8859-15, které také obsahuje nový znak Eura €. Podobně nebyla zahrnuta písmena 'ĳ' a 'Ĳ' používaná v nizozemštině, protože Nizozemci si zvykli je psát jako dvě písmena. Pro rumunštinu nebyly zařazeny znaky ‹Ș›/‹ș› a ‹Ț›/‹ț› (s čárkou) pod písmenem, protože je Unicode Consortium zpočátku považovalo za varianty znaků ‹Ş›/‹ş› a ‹Ţ›/‹ţ› (s cedillou). Písmena s čárkou pod znakem byla později přidána do standardu Unicode a jsou také v ISO/IEC 8859-16.

Většina kódování ISO/IEC 8859 obsahuje znaky diakritikou potřebné pro různé evropské jazyky používající latinku. Ostatní obsahují nelatinkové abecedy: řeckou abecedu, cyrilici, hebrejskou abecedu, arabskou abecedu a thajské písmo. Většina kódování obsahuje pouze samostatné znaky, přestože thajština, hebrejština a arabština používají i kombinační znaky. Norma však neobsahuje podporu východoasijských písem (CJK), protože jejich ideografická písma vyžadují tisíce kódových bodů. Zahrnuta není ani vietnamština, která sice používá latinku, ale má tolik znaků s diakritikou, že se nevejde se do 96 pozic (bez použití kombinační diakritiky). Obě japonské hláskové abecedy (hiragana a katakana, viz Kana) by se do tohoto počtu vešly, ale zakódované v ISO/IEC 8859 také nejsou.

Remove ads

Úvod

Znaky

Části ISO/IEC 8859

Vztah k Unicode a UCS

Vývojový status

Odkazy

Wikiwand - on