Timeline
Chat
Prospettiva
KOI8-U
Da Wikipedia, l'enciclopedia libera
Remove ads
KOI8-U è un sistema di codifica di caratteri a 8-bit progettato per essere adoperato con l'ucraino, lingua che utilizza l'alfabeto cirillico. Il KOI8-U, il cui nome sta per Kod Obmena Informaciej, 8 bit (in russo Код Обмена Информацией, 8 бит, Codice per lo scambio di informazioni, 8 bit), è basato sul KOI8-R, sistema di codifica basato sull'originale KOI8 e progettato per l'utilizzo con il russo e con il bulgaro, di cui sostituisce otto caratteri grafici con quattro lettere ucraine nelle loro versioni maiuscola e minuscola: Ґ, Є, І e Ї.
Il KOI8 ed il CP-1251, un altro sistema di codifica di caratteri per le lingue che utilizzano l'alfabeto cirillico, sono ancora molto più utilizzati dell'ISO 8859-5, che in effetti non ha mai trovato grande utilizzo, anche se oggi, ormai, nella stragrande maggioranza degli utilizzi moderni, viene loro preferito l'Unicode.
Il KOI8 ed i sistemi da lui derivati hanno la particolarità di avere le lettere cirilliche disposte in ordine pseudo-latino piuttosto che nel comune ordine dell'alfabeto cirillico come hanno per esempio l'ISO 8859-5 e l'Unicode. Sebbene questo possa sembrare anti intuitivo, questa caratteristica risulta utile per il fatto che se l'ottavo bit viene eliminato, il testo è parzialmente leggibile utilizzando il sistema ASCII e può essere convertito in un testo in KOI7 sintatticamente corretto. Per esempio se dalla scritta in KOI8-U "Русский Текст" viene eliminato l'ottavo bit, essa diventa rUSSKIJ tEKST ("Testo russo") ed un tentativo di interpretare tale stringa con il KOI7 porta a "РУССКИЙ ТЕКСТ". Il KOI8 fu creato basandosi sul codice Morse russo (che a sua volta fu creato dal codice Morse internazionale basandosi sulle assonanze) e la connessione riguardante l'ordine delle lettere tra il codice Morse russo e quello internazionale è la stessa che esiste tra il KOI8 e l'ASCII.
Nel sistema operativo Microsoft Windows, il numero di code page assegnato al sistema KOI8-U è 21866, nei sistemi di IBM è invece il numero 1186.[1]
Remove ads
Tabella
Riepilogo
Prospettiva
La seguente tabella mostra il sistema di codifica KOI8-U.[1] Ogni carattere è rappresentato al centro della cella con il suo equivalente Unicode in alto e il suo codice decimale in basso.
Caratteri di controllo | Punteggiatura | ||
Cifre numeriche | Caratteri alfabetici | ||
Caratteri internazionali | Caratteri non definiti | ||
Caratteri grafici | Punteggiatura estesa |
Nella tabella soprastante, il corrispettivo del codice Unicode 20 è il carattere spazio mentre del codice Unicode A0 è lo spazio unificatore.
Le differenze dal KOI8-R consistono nelle posizioni 0xA4; 0xA6; 0xA7; 0xAD; and 0xB4; 0xB6; 0xB7; 0xBD; occupate da lettere che non compaiono nella lingua russa.
Anche se l'RFC 2319[2] dice che il carattere in posizione 0x95 ha corrispettivo Unicode U+2219 (∙), esso può anche avere U+2022 (•) in modo da farlo coincidere con il carattere punto elenco del Windows-1251.
Alcune versioni riportate contengono un errore circa il carattere in posizione 0xB4, a cui viene assegnato il codice Unicode U+0403 piuttosto che il corretto U+0404. Un esempio di questo si trova nall'appendice A dell'RFC 2319 (la tabella nel testo principale riporta comunque il codice corretto).
Remove ads
Note
Voci correlate
Collegamenti esterni
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads