UTF-8

Informatikan, UTF-8 (8 biteko Unicode Transformazio Formatua) testuetako karaktereak kodetzeko modu bat da. Munduan zehar erabiltzen diren alfabeto guztiak erabiltzeko aukera ematen du (latindar alfabetoa, grekoak, ziriliko‎, arabiarra...

UNICODEko UTF-8 kodetze-modua erabiliena da gaur egunean. UTF-8 Weberako bereziki kodeketa ohikoena da, baita bigarrena baina askoz gehiago erabilia ere. 2020an Web orrialde guztien %95 baino gehiago dira UTF-8-rekin kodetuta daudenak. Are gehiago, % 100-ra arte ailegatu zen 2020an hizkuntza batzuetarako.

[1]

Byte kopurua	Kode-puntu bakoitzeko bit kopurua	Lehen kode-puntua	Azken kode-puntua	Byte 1	Byte 2	Byte 3	Byte 4
1	7	U+0000	U+007F	0xxxxxxx
2	11	U+0080	U+07FF	110xxxxx	10xxxxxx
3	16	U+0800	U+FFFF	1110xxxx	10xxxxxx	10xxxxxx
4	21	U+10000	U+10FFFF	11110xxx	10xxxxxx	10xxxxxx	10xxxxxx

Character		Kodearen puntua		UTF-8
Character		Zortzitarra	Bitarra	Bitarra	Zortzitarra	Hamaseitarra
$	U+0024	044	010 0100	00100100	044	24
¢	U+00A2	0242	000 1010 0010	11000010 10100010	302 242	C2 A2
ह	U+0939	004471	0000 1001 0011 1001	11100000 10100100 10111001	340 244 271	E0 A4 B9
€	U+20AC	020254	0010 0000 1010 1100	11100010 10000010 10101100	342 202 254	E2 82 AC
한	U+D55C	152534	1101 0101 0101 1100	11101101 10010101 10011100	355 225 234	ED 95 9C
𐍈	U+10348	0201510	0 0001 0000 0011 0100 1000	11110000 10010000 10001101 10001000	360 220 215 210	F0 90 8D 88

UTF-8

UTF-8 estandarra beti erabiltzeko aholkua

Zabalera aldakorreko errepresentazioa

Oharrak

Erreferentziak

Kanpo estekak

Wikiwand - on