UTF-8
Uit Wikipedia, de vrije encyclopedia
UTF-8 (8-bit Unicode Transformation Format) is een manier om Unicode/ISO 10646-tekens op te slaan als een stroom van bytes, een zogenaamde tekencodering. Alternatieven zijn UTF-16 en UTF-32.
UTF-8 is een tekencodering met variabele lengte: niet elk teken gebruikt evenveel bytes. Afhankelijk van het teken worden 1 tot 4 bytes gebruikt. Voor de 128 ASCII-tekens is slechts één byte nodig, waarvan de numerieke waarde gelijk is aan de ASCII-code. Voor alle andere tekens zijn twee of meer bytes nodig.
Vóór de komst van Unicode gebruikten veel landen een uitbreiding op de ASCII-tekenset met taalspecifieke tekens in de posities 128-255.