UTF-16

UTF-16 (16-bit Unicode Transformation Format) est un encodage de longueur variable qui permet de coder les 1 112 064 valeurs de code valides des normes Unicode et ISO/IEC 10646 . Les valeurs de code du plan multilingue de base (abréviation : PMB) sont codées sur un codet de 16 bits appelé seizet. Les valeurs de code des plans multilingues complémentaires sont codées sur une paire de seizets d'indirection : le seizet d'indirection supérieur (de 0xD800 à 0xDBFF) et le seizet d'indirection inférieur (de 0xDC00 à 0xDFFF)^[1].

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article doit être recyclé (juillet 2025).

UTF-16 fait partie intégrante de la norme Unicode, dans son chapitre 3 Conformance^[2], qui le définit de façon très stricte. Il utilise un jeu de caractères commun avec la norme ISO 10646. URF-16 prend en charge les 1 112 064 points de code Unicode valides.

Chaque point de code Unicode est codé en une ou deux unités de 16 bits appelés seizet.

Les points de code inférieurs à 2¹⁶ (« dans le PMB») sont codés avec un seul seizet dont la valeur est égale à la valeur numérique du point de code, comme dans l'ancien UCS-2.

Les points de code supérieurs ou égaux à 2¹⁶ (« au-dessus du PMB») sont codés avec deux seizets. Ces deux seizets sont choisis dans la plage de d’indirection UTF-16 de 0xD800 à 0xDFFF. Les valeurs de cette plage ne sont jamais utilisées comme caractères, et UTF-16 ne permet pas de les coder comme points de code individuels. Un flux UTF-16 est donc constitué de seizets du PMB en dehors de la plage d’indirection et de paires de seizets d’indirection judicieusement choisies dans la plage d’indirection.

Points de code du plan multilingue de base (PMB)

Il s’agit des points de code de U+0000 à U+D7ff et de U+E000 à U+FFFF.

UTF-16 et UCS-2 codent les points de code de cette plage sous forme d'unités de code uniques de 16 bits appelés seizets, numériquement égales aux points de code correspondants.

Depuis Unicode 9.0, certaines écritures modernes non latines d'Asie, du Moyen-Orient et d'Afrique se situent en dehors de cette plage, tout comme la plupart des caractères emoji.

Points de code des 16 plans multilingues supplémentaires

Ce sont les points de code de U+010000 à U+10FFFF.

Ils sont codés sous forme de deux unités de code de 16 bits appelées seizets d’indirection. La première unité de code est le seizet d’indirection supérieur (High-Surrogate Code Unit) et la seconde unité de code est le seizet d’indirection inférieur (Low-Surrogate Code Unit).

La valeur 0x10000 est soustraite du point de code (U), il reste une valeur sur 20 bits (U') comprise entre 0x00000 et 0xFFFFF.

Les dix bits de poids fort (compris entre 0x000 et 0x3FF) sont ajoutés à 0xD800 pour obtenir le seizet d’indirection supérieur (W1), compris entre 0xD800 et 0xDBFF.

Les dix bits de poids faible (également compris entre 0x000 et 0x3FF) sont ajoutés à 0xDC00 pour obtenir le seizet d’indirection inférieur (W2), compris entre 0xDC00 et 0xDFFF.

Exemple

Auto synchronisation

Étant donné que les plages des substituts supérieurs (0xD800–0xDBFF), des substituts inférieurs (0xDC00–0xDFFF) et des caractères PMB valides (0x0000–0xD7FF, 0xE000–0xFFFF) sont disjointes, il est impossible qu'un seizet d'indirection corresponde à un caractère PMB ou que deux unités de code adjacentes ressemblent à une paire de substituts valide. Cela simplifie considérablement les recherches. Cela signifie également que l'UTF-16 s'auto-synchronise sur les seizets : il est possible de déterminer si une unité de code commence un caractère sans examiner les unités de code précédentes (c'est-à-dire que le type d'unité de code peut être déterminé par les plages de valeurs dans lesquelles elle se situe). L'UTF-8 partage ces avantages, mais de nombreux schémas de codage multi-octets antérieurs (tels que Shift-JIS et autres codages multi-octets asiatiques) ne permettaient pas une recherche univoque et ne pouvaient être synchronisés qu'en analysant la chaîne depuis le début. Toutefois, UTF-16 ne s'autosynchronise pas si un octet est perdu.

Ordre des octets

Il y a deux façons de représenter un seizet avec deux octets :

Gros boutisme (big-endian en anglais) : Les 8 bits de poids fort du seizet sont dans le premier octet et les 8 bits de poids faible du seizet sont dans le second octet.

Petit boutisme (little-endian en anglais): Les 8 bits de poids faible du seizet sont dans le premier octet et les 8 bits de poids fort du seizet sont dans le second octet.

L’ordre des octets est donc important quand il s’agit des entrées-sorties. Pour faciliter la reconnaissance du mode utilisé, la norme définit le caractère U+FEFF nommé « indicateur d'ordre des octets » (BOM en anglais) à placer optionnellement au début d’un texte encodé en UTF-16. Il est aussi possible de spécifier directement l’encodage utilisé : avec l'étiquette UTF-16BE pour indiquer du texte UTF-16 big-endian et l'étiquette UTF-16LE pour indiquer du texte UTF-16 little-endian^[5].

Historique

Usage

Description

Points de code du plan multilingue de base (PMB)

Points de code des 16 plans multilingues supplémentaires

Exemple

Auto synchronisation

Ordre des octets

Notes et références

Voir aussi

Wikiwand - on