Kódování znaků

Kódování znaků nebo znakový kód (anglicky character encoding, character code) je ve výpočetní technice kód, který každému znaku přiřazuje určité číslo (bajt, sekvenci elektrických pulzů ap.). Znaková sada označuje množinu všech znaků zvoleného kódování, které jsou uspořádány podle kódových bodů, tedy pozic v tabulce znaků seřazených podle kódů. Znakem se rozumí písmena různých abeced, číslice, symboly a jiné grafémy, ale také nezobrazované řídící znaky, které mají zvláštní funkce.

Znaková sada je obdobou Morseovy abecedy, která kóduje písmena latinky (a další znaky) pomocí sérií dlouhých a krátkých stisků telegrafního klíče.

Součástí prakticky všech v současnosti používaných kódování je 7bitový kód ASCII, který obsahuje písmena latinky bez diakritiky, číslice, základní symboly a pomocné formátovací znaky. Současná kódování znaků vychází ze světového standardu Unicode, případně z čínského standardu GB18030, které mají shodný znakový repertoár. Tento znakový repertoár pokrývá prakticky všechny znaky používané dnes lidstvem.

Remove ads

Historie kódování znaků

Tato část článku potřebuje úpravy.

Kódování znaků je úzce spojeno s rozvojem výpočetní techniky, klávesnice zase vzešla z psacího stroje, proto ty potíže s přehozenými znaky Y->Z^[1], kde americké psací stroje měly znaky Z a Y, oproti českým psacím strojům, přehozeny.

Ještě v roce 1984 kralovaly v Československu sálové počítače (mainframe)^[2]. Jako program se používaly děrné štítky.

Pro tisk výplatních pásek se používal dálnopis. Ten uměl jen ASCII kódování, proto u jmen a příjmení to bylo bez českých znaků.

V zahraničí byly již osmibitové počítače jako ATARI (ATARI 800 XL v roce 1983), ZX SPECTRUM, u nás byly k sehnání přibližně od roku 1986, které se používaly hlavně v domácnostech pro hraní her, ale dalo se na nich i programovat ve vyšších programovacích jazycích (Basic, Pascal) nebo psát dokumenty (na ATARI 800 XL to byl například Cheops'Writer^[3]). Poté se daly tyto dokumenty vytisknout na jednojehličkové tiskárně BT-100^[4]. Obraz byl přes obyčejný televizní přijímač na vyhrazeném kanále. Hlavně na školách se používalo české IQ 151.

Přibližně od roku 1990 se již ve větších podnicích začaly nakupovat šestnáctibitové počítače PC (personal computer) s procesorem Intel 286 (XT), operačním systémem DOS od firmy Microsoft s českou znakovou sadou CP852 (codepage852). Tyto PC byly ve své době (1990) pro soukromé osoby velmi drahé.

Po nástupu grafického WINDOWS 95 s grafickým rozhraním, Microsoft pro ČR (a státy CE) zavedl nestandardní kódové stránky MS CP-1250. Pokud se k tomu na Windows 95 používal například účetní program pro DOS, tak u českých znaků se zobrazoval „rozsypaný čaj“ – různé paznaky.

Špatné zobrazování českých znaků - rozsypaný čaj

Po rozvoji e-mailů se začalo snadno komunikovat celosvětově a zdarma. Tím se klasická papírová korespondence (dopisy) odsunula na vedlejší kolej. Mezitím firma Microsoft s operačním systémem Windows získala na poli osobních počítačů dominantní postavení. Ovšem pro mezinárodní komunikaci nestandardní kódová stránka CP-1250 (na rozdíl od ISO 8859-2) nebyla vhodná, v zahraničí u českých znaků se opět zobrazoval „rozsypaný čaj“^[5].

Linuxové operační systémy používaly mezinárodní standardy kódování znaků ISO, pro Československo, posléze Českou republiku ISO 8859-2. To u mezinárodní komunikace (ISO 8859-2) zobrazovalo správně i české znaky.

Od roku 2000 (UNIX)linuxové systémy začaly přecházet na mezinárodní standard unicode kódování znaků UTF-8^[6], kde lze zobrazit vedle sebe znaky v různých jazycích. Toto kódování se začalo používat úplně všude (e-mail, webové stránky, dokumenty, operační systémy, databáze).

Některé organizace nemají vyřešeno kódování znaků dodnes (rok 2025),^[zdroj?] kdy již unicode je mezinárodním standardem a kódování znaků je UTF-8.^[7]^[8]

Remove ads

Proces standardizace

Po přijetí de facto standardů dálnopisných kódů bylo významným krokem standardizace vytvoření znakových kódů ASCII (1963) a EBCDIC (1964). Kód ASCII reprezentuje 33 řídicích a 95 tisknutelných znaků včetně malých a velkých písmen anglické abecedy, číslic a dalších symbolů pomocí 7bitových čísel; kód EBCDIC reprezentuje poněkud širší sadu znaků pomocí 8bitových čísel. Zatímco kód EBCDIC zůstal omezen na sálové počítače firmy IBM a jejich kopie, kód ASCII byl převzat různými národními i mezinárodními standardizačními organizacemi, například jako ISO/IEC 646 nebo T.50, a na jeho základě vzniklo množství národních variant používajících 7bitové kódy. Jejich velkou nevýhodou bylo, že symboly, jejichž používání se mezitím rozšířilo, nahrazují národními znaky, takže při volbě nevhodného kódování se např. texty programů mohou proměnit v nečitelnou změť znaků. Většího rozšíření se proto dočkaly 8bitové kódy, které zpravidla ponechávají kódy ASCII beze změn. Jedním 8bitovým kódem však nelze reprezentovat latinku, řecké písmo, cyrilici (azbuku), arabštinu a hebrejštinu, ani pokrýt všechny znaky latinky s diakritickými znaménky používanými v různých jazycích. Významné firmy jako Microsoft, IBM a Apple navíc vyvinuly vlastní osmibitové kódy, které přivedly kódování národních znaků na pokraj chaosu. Nejednotnost osmibitových kódování spolu s potřebou jednotné reprezentace asijských písem včetně rodiny CJK vedly okolo roku 1990 k vytvoření standardů Unicode a ISO 10646 vyvíjených ve vzájemné součinnosti, jejichž postupně uskutečňovaným záměrem je vytvořit jednotné kódovaní pro reprezentaci všech písem používaných na planetě Zemi.

Remove ads

Terminologie

Zatímco znaková sada je prostý souhrn znaků, kódování znaků definuje navíc i přiřazení kódů jednotlivým znakům. Kódem může být například Morseova abeceda, kódující písmena latinky, číslice a několik dalších znaků pomocí sérií dlouhých a krátkých stisků telegrafního klíče, nebo kombinace dírek na děrném štítku nebo děrné pásce; ve výpočetní technice se však znaky nejčastěji reprezentují celými čísly, která se například ve standardu Unicode nazývají kódový bod (anglicky code point). Pro kódování znaků se někdy používá termín kódovaná znaková sada (anglicky coded character set), ale v praxi se oba termíny často používají jako synonyma. Protože znaková sada obvykle zahrnuje jak tisknutelné tak netisknutelné znaky, není starší termín pro kódování znaků abecedně-číslicový kód příliš vhodný. ČSN pro znakovou sadu používá termín soubor znaků, který však obsahuje slovo soubor používané jinde ve výpočetní technice ve významu sada dat umístěných na datovém médiu.

V mnoha operačních systémech se pro kódování znaků používá termín kódová stránka (anglicky code page, codepage případně codeset), v některých prostředích termín abeceda (anglicky alphabet).

Jednoduché znakové sady

Konvenční znakové sady a kódování znaků byly shodné, stejný standard specifikoval, které znaky byly dostupné a současně jak mají být zakódovány v sekvencích kódových jednotek (obvykle jeden znak na kódovou jednotku). Z historických důvodů MIME a jiné systémy založené na těchto sadách používaly termín znaková sada i pro systémy pro kompletní kódování sekvencí znaků do sekvence bytů (oktetů).

Moderní přístup ke kódování

Unicode a jeho paralelní standard ISO 10646, tuto ideu překonávají oddělením dostupných znaků a jejich číslování od toho, jakým způsobem jsou tyto znaky kódovány jako série „kódových jednotek“ (čísel omezené velikosti) a jakým způsobem jsou tyto jednotky kódovány do sekvence bytů (oktetů). Cílem této dekompozice je ustavit univerzální znakovou sadu, která může být kódována množstvím způsobů. Proto byly zavedeny následující pojmy:

Znakový repertoár: plná sada znaků podporovaná daným systémem. Tento repertoár může být uzavřený nebo otevřený, dovolující rozšiřování (což je případ Unicode). Základní sady latinky, řecké abecedy a cyrilice mohou být rozděleny na písmena, číslice, interpunkci a několik speciálních znaků, jako je např. mezera. Dokonce i zde představuje určitou komplikaci diakritika, protože může být implementována buď pomocí znaků obsahujících diakritiku (což je mnohem jednodušší při zpracování), nebo pomocí kombinace základních znaků a diakritických znaků (což dovoluje mnohem větší volnost kombinací). Znakový repertoár jiných skriptovacích systémů, jako jsou arabský nebo hebrejský, je mnohem složitější, protože zahrnuje možnosti jako je obousměrný text a různá spojování glyfů (grafických interpretací znaku) v různých situacích.

Kódovaná znaková sada: určuje, jak má být reprezentován repertoár znaků užitím nezáporných celých čísel nazývaných kódové body. Např. znaku velké „A“ může být přiřazeno číslo 65, znaku velké „B“ 66 atd., až je pokryta celá abeceda. Určitá sada znaků a jejich čísel pak tvoří kódovanou znakovou sadu. Kódované znakové sady mohou sdílet stejný repertoár, ale mapovat jej jiným způsobem, jak je tomu např. u ISO-8859-1 a kódových stránek IBM CP037 a CP500. V kódované znakové sadě představuje jeden kódový bod jediný znak.

Forma kódování znaků (CEF): popisuje převod kódů z kódované znakové sady na sadu celočíselných hodnot kódu pro ukládání v systému reprezentujícím čísla v binární formě za použití omezeného počtu bitů (prakticky každý počítač). CEF tedy předepisuje např. způsob jak převést kódový bod např. z rozmezí 0 až 1,4 miliónu na sérii jedné nebo více hodnot kódu v rozmezí např. od 0 do 65535 (16bitové číslo).

Nejjednodušší je zvolit takovou formu kódování (CEF), kde každému bodu kódu odpovídá jedna hodnota kódu. To je však neúsporné – např. pro kódování latinky stačí 1 byte (viz 7bitové ASCII), zatímco Unicode vyžaduje minimálně 21 bitů (prakticky 3 byty). Proto byla definována kódování UTF-8 (po bytech) resp. UTF-16 (po slovech), která kódují znak do sekvence bytů resp. slov (dvoubytů). Nejpoužívanější znaky jsou zakódovány pomocí jednoho nebo dvou bytů, což vede k úspoře paměti.

Systém kódování: definuje rozklad kódových hodnot na byty. V praxi jde o to, že některé systémy při ukládání ukládají vícebytová čísla v pořadí od nejvyššího byte k nejnižšímu (little endian) a jiné v pořadí od nejnižšího k nejvyššímu (big endian). Je vhodné poznamenat, že kódování UTF-8 tyto komplikace obchází, přičemž je navíc kompatibilní s ASCII. Existují také složená kódování, která používají escape sekvence pro přepínání mezi několika jednoduchými schématy (jako ISO/IEC 2022) a kompresní schémata, která minimalizují počet bytů na jednotku kódu (SCSU, BOCU a Punycode).

Remove ads

Lexikální řazení

Související informace naleznete také v článku Abecední řazení.

Součástí standardů pro kódování znaků je obvykle i informace, jakým způsobem se v konkrétním jazyce provádí lexikální (abecední, alfabetní…) řazení. Řazení nelze většinou provést jen prostým porovnáním kódových hodnot znaků (tzv. ordinální řazení), protože většina jazyků má různé výjimky (např. české Ch). Ne vždy lze realizovat lexikální řazení přidaných znaků do znakové sady.

Remove ads

Znakové sady a HTML

Aby nemusel uživatel u každé stránky hledat v menu znakovou sadu vhodnou pro její zobrazení, je možné v HTML hlavičce uvést znakovou sadu, ve které byla daná stránka vytvořena. V roce 2025 by se nové webové stránky měly psát již výhradně v UTF-8 kódování^[9] v HTML5 standardu^[10]^[11], jehož základní syntaxe i s META hlavičkami se zjednodušila a je následující:

<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<title>Kódování znaků – Wikipedie</title>
</head>
<body>
<p><strong>Kódování znaků</strong> nebo <strong>znakový kód</strong>...</p>
</body>
</html>

Dříve, před rokem 2015, se to zapisovalo takto:

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Windows-1250">^{[pozn. 1]}: pro sadu Windows-1250 (sada používaná v českých Windows).
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=ISO-8859-2">: pro texty vytvořené ve standardizované sadě ISO 8859-2, např. v Linuxu.
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=UTF-8">: UTF-8 je vhodné použít pro vícejazyčné dokumenty a stránky obsahující zvláštní znaky nepodporované předchozími sadami (ve Windows XP je ukládání do UTF-8 podporováno v Poznámkovém bloku).

Všechny dnes běžně rozšířené prohlížeče (Windows Internet Explorer, Firefox, Opera) tento tag implementují, jeho interpretace však závisí také na nastavení webového serveru. Stránka zobrazená z lokálního disku správně může při stažení ze serveru vypadat jako „rozsypaný čaj“ – dokud uživatel nevnutí prohlížeči ručně správné kódování nebo neupraví nastavení webserveru, který posílá prohlížeči chybnou informaci o kódování v hlavičce HTTP.

Poměrně univerzálně fungující možností je vkládání znaků pomocí escape sekvencí. Sekvence &#n; zobrazí znak s unikódovou hodnotou n. Například sekvence á zobrazí český znak á. V tomto případě byla hodnota znaku uvedena decimálně, pokud bychom ji chtěli uvést hexadecimálně, použijeme sekvenci &#xn; (např. á pro znak á).

Remove ads

ASCII

ASCII je nepochybně základním kódováním, z kterého vychází v euro-americkém prostoru ostatní standardy. Drtivá většina osmibitových znakových sad pouze rozšiřuje ASCII tím, že přidávají významy kódům 128-255, které se v ASCII nepoužívají.

Kódování češtiny

Podrobnější informace naleznete v článku Kódování češtiny.

Další informace Sada, Popis ...

Sada	Popis
Unicode	současná celosvětová znaková sada, používaná v současných OS
Windows-1250	osmibitové kódování češtiny používané v systémech Microsoft Windows
CP852	osmibitové kódování češtiny v systému MS-DOS
ISO 8859-2	osmibitové kódování češtiny v UNIXových systémech
Kód Kamenických	osmibitové kódování češtiny částečně kompatibilní s CP437 (zachovává semigrafické znaky)

Standardy ISO 8859-x

Standardy ISO/IEC 8859-x definují osmibitové znakové sady, používané zvláště v UNIXu/Linuxu. Novější unixové distribuce již přecházejí na Unicode s kódováním UTF-8.

Další informace Sada, Skript ...

Sada	Skript
ISO 8859-1	Latin-1, Západoevropský
ISO 8859-2	Latin-2, Východoevropský
ISO 8859-3	Latin-3, Jihoevropský
ISO 8859-4	Latin-4, Baltský
ISO 8859-5	Cyrilice
ISO 8859-6	Arabský
ISO 8859-7	Řecký
ISO 8859-8	Hebrejský
ISO 8859-9	Latin-5, Turecký
ISO 8859-10	Latin-6, Nordický
ISO 8859-11	Thajský
ISO 8859-13	Latin-7, Baltský
ISO 8859-14	Latin-8, Keltský
ISO 8859-15	Latin-9, Západoevropský
ISO 8859-16	Latin-10, Jihovýchodoevropský

Remove ads

Vybrané kódové stránky Windows

Operační systémy rodiny Microsoft Windows používají několik osmibitových kódování, více nebo méně podobných standardům ISO8859-x. Kromě toho interně používají pro definici fontů šestnáctibitovou znakovou sadu WGL-4 (windows glyph 4), která obsahuje všechny znaky ze zde zmiňovaných kódových stránek Windows-1250 až Windows-1258.

Další informace Sada, Skript ...

Sada	Skript
Windows-1250	Latin-2, Středoevropský (podobný ISO 8859-2)
Windows-1251	Cyrilice
Windows-1252	Latin-1, Západoevropský (rozšiřuje ISO 8859-1)
Windows-1253	Řecký (podobné ISO 8859-7)
Windows-1254	Turecký (shoduje se s ISO 8859-9)
Windows-1255	Hebrejský (rozšiřuje ISO 8859-8)
Windows-1256	Arabský (částečně shodný s ISO 8859-6)
Windows-1257	Latin 13, Baltský (téměř shodný s ISO 8859-13)
Windows-1258	Vietnamský (velmi podobný Windows-1252)

Remove ads

Vícebytové standardy

Další informace Popis ...

Kódování	Popis
UTF-8	kódování unicode s nejmenší kódovou jednotkou délky osm bitů. Nezávisí na tom zda je systém „little-endian“ nebo „big endian“, je kompatibilní s ASCII.
UTF-16	jiné kódování unicode používané ve Windows a v jazyku Java. Nejmenší kódová jednotka má délku šestnáct bitů, má varianty „little-endian“ a „big-endian“ (UTF-16LE a UTF-16BE), není kompatibilní s ASCII.
UTF-32	přímé kódování unicode, jednomu kódovému bodu odpovídá jedno čtyřbajtové číslo. Je vhodný pro rychlé zpracování, ale velmi neúsporný pro ukládání. Nejmenší kódová jednotka má délku 32 bitů, má varianty „little-endian“ a „big-endian“ (UTF-32LE a UTF-32BE), není kompatibilní s ASCII.
GB18030	oficiální standard pro kódování čínštiny. Jde o netriviálně přemapovaný unicode, tak aby byl kompatibilní s GBK. Nejmenší kódová jednotka má délku osm bitů, je kompatibilní s ASCII.
GBK	microsoftí kódování čínštiny. Nejmenší kódová jednotka má délku osm bitů, je kompatibilní s ASCII.
UCS-2	překonaný šestnáctibitový kód implementující pouze základní rovinu unicode, je nahrazen UTF-16. Používal se ve Windows NT a Windows 2000.
WGL4	panevropská šestnáctibitová microsoftí sada fontů

Znakové sady pro DOS

Tyto znakové sady jsou osmibitovým kompatibilním rozšířením ASCII (definují navíc význam kódů 128 až 255).

Další informace Popis ...

Kódování	Popis
CP437	původní znaková sada MS-DOS / IBM-PC (USA)
CP737	řečtina (vychází z CP437)
CP850	západní Evropa (velmi podobná CP858)
CP852	"východoevropské" jazyky (čeština, slovenština,polština,rumunština…) a němčina
CP855	cyrilice (nepříliš používaná)
CP857	turečtina
CP858	západní Evropa (velmi podobná CP850)
CP860	portugalština
CP861	severské jazyky (islandština)
CP863	francouzština (Kanada)
CP865	severské jazyky kromě islandštiny (velmi podobná CP437)
CP866	ruština
CP869	řečtina (méně populární než CP737)
Kód Kamenických	kódování češtiny a slovenštiny vycházející ze sady CP437

Jiné standardy

ISO/IEC 646
ISO/IEC 6937 kódování českého a jiných evropských jazyků v DVB
EBCDIC kódování IBM, které mělo konkurovat ASCII, ale moc se neujalo
KOI: kódování bývalého sovětského bloku; 7bitové: KOI7 a 8bitová: KOI8-R, KOI8-U, KOI8-CS
ISCII indické 8bitové kódování
VISCII vietnamské kódování
Big5
HKSCS
Guobiao
GB2312
ISO/IEC 2022, Shift-JIS, EUC

Odkazy

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads