Timeline
Chat
Prospettiva
ISO 8859
standard internazionale Da Wikipedia, l'enciclopedia libera
Remove ads
Lo standard ISO 8859, più precisamente ISO/IEC 8859, è uno standard comune ISO ed IEC per la codifica di caratteri ad 8 bit per il trattamento informatico di testi. La norma è divisa in parti numerate pubblicate separatamente (come ISO/IEC 8859-1, ISO/IEC 8859-2, etc), ognuna delle quali può essere riferita informalmente come standard a sé stante. Ci sono attualmente 15 parti definite, escludendo la ISO/IEC 8859-12, abbandonata.
Le parti 1, 2, 3 e 4 della ISO/IEC 8859 sono incluse nello standard ECMA International ECMA-94.
Remove ads
Introduzione
Riepilogo
Prospettiva
Sebbene la sequenza di bit dei 95 caratteri ASCII stampabili (tutte le lettere occidentali non accentate) siano sufficienti per lo scambio di informazioni usando la lingua inglese, molte altre lingue che usano l'alfabeto latino hanno bisogno di simboli addizionali non compresi nell'ASCII, come la ß (tedesco), la ñ (spagnolo), la å (svedese e altre lingue scandinave) o le lettere accentate italiane (à, è, é, ì, ò, ù).
L'ISO 8859 cercò di rimediare a questo problema utilizzando l'ottavo bit del byte, permettendo la definizione di altri 128 caratteri. Questo bit era usato in precedenza per informazioni del protocollo di trasmissione dati oppure era inutilizzato. Comunque, erano necessari più caratteri di quanti potessero stare nella codifica a 8 bit, così furono sviluppate diverse mappe di caratteri, di cui una decina solo per coprire le lingue latine.
Le codifiche ISO 8859-n contengono solo caratteri stampabili, e sono state concepite per essere usate assieme a caratteri di controllo mappati sui valori non assegnati. Molte codifiche registrate presso lo IANA comprendono i codici di controllo C0 (caratteri di controllo mappati sui valori da 0 a 31 inclusi) dello standard ISO 646 e i codici di controllo C1 (caratteri di controllo mappati sui valori da 127 a 159 inclusi) dello standard ISO 6429, dando origine a mappe a 8 bit in cui tutti o quasi i 256 possibili valori risultano assegnati.
L'identificativo MIME preferito per queste codifiche è ISO-8859-n, o alternativamente il loro nome canonico. Le scritture ISO 8859-n e ISO-8859-n sono frequentemente utilizzate indifferentemente. L'identificativo ISO-8859-11 è l'unico di questo insieme a non essere registrato presso lo IANA, probabilmente a causa della sua pressoché totale corrispondenza con il preesistente standard TIS 620, il cui nome è invece registrato.
Remove ads
Caratteri
Riepilogo
Prospettiva
Lo standard ISO 8859 è progettato per un affidabile scambio di informazioni, non per la stampa tipografica; lo standard omette simboli necessari per una stampa di qualità, come le legature opzionali, virgolette, lineette ad altri caratteri. In conseguenza di questo i sistemi tipografici professionali spesso usano estensioni proprietarie (ed incompatibili tra di loro) aggiunte all'ASCII e allo standard ISO 8859, oppure l'Unicode.
In linea di massima sono stati inclusi solo i caratteri e i simboli che già facevano parte di un set di caratteri diffusamente utilizzato e presenti sulle varie versioni nazionali delle tastiere. Furono pertanto incluse le virgolette caporali « e », usate da alcune lingue europee, ma non i doppi apici “ e ” usati dall'inglese e qualche altra lingua. Del francese furono escluse le legature œ e Œ, comunemente trascritte come "oe". La lettera Ÿ, necessaria per la scrittura di testo in maiuscolo, fu anch'essa esclusa. Questi caratteri furono però successivamente inclusi, assieme al simbolo dell'euro "€", dalla codifica ISO 8859-15. Analogamente i caratteri olandesi 'ij' e 'IJ' furono esclusi in quanto usualmente trascritti separatamente come "ij". Del rumeno furono inizialmente escluse le lettere 'Ș/ș' e 'Ț/ț' (lettere con virgola), unificate dal Consorzio Unicode con le lettere 'Ş/ş' e 'Ţ/ţ' (lettere con cediglia) considerando i glifi con la virgola semplici varianti di quelli con la cedilla. Le lettere con la virgola furono successivamente introdotte esplicitamente nello standard Unicode ed inserite nella codifica ISO 8859-16.
La maggior parte delle codifiche ISO 8859 offrono i segni diacritici necessari per la trascrizione in caratteri latini di varie lingue europee. Altre offrono anche caratteri non latini, quali il greco, il cirillico, l'ebraico, l'arabo e il thailandese. La maggior parte delle codifiche prevedono solo caratteri spaziati (ovvero che prevedono l'avanzamento del cursore), ma quelle tailandese, ebraica e araba contengono anche caratteri combinanti (ovvero la cui emissione non comporta l'avanzamento del cursore). Lo standard non offre alcun supporto per le scritture dell'est asiatico (cinese, giapponese, coreano), poiché i loro sistemi di scrittura ideografici richiedono molte migliaia di caratteri. Benché utilizzi caratteri basati sull'alfabeto latino, nemmeno il vietnamita rientra entro il limite di 96 caratteri (esclusi i segni diacritici) imposti dallo standard. I due sistemi di scrittura sillabici giapponesi (hiragana e katakana) rientrerebbero in tale limite, ma non sono comunque inclusi tra le codifiche ISO 8859.
Remove ads
Le parti dell'ISO 8859
Rapporto con Unicode e UCS
Stato dello sviluppo
Altri progetti
Collegamenti esterni
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads