UTF-8

From Wikipedia, the free encyclopedia

UTF-8
Remove ads

Informatikan, UTF-8 (8 biteko Unicode Transformazio Formatua) testuetako karaktereak kodetzeko modu bat da. Munduan zehar erabiltzen diren alfabeto guztiak erabiltzeko aukera ematen du (latindar alfabetoa, grekoak, ziriliko‎, arabiarra...

Thumb
UNICODE logoa

UNICODEko UTF-8 kodetze-modua erabiliena da gaur egunean. UTF-8 Weberako bereziki kodeketa ohikoena da, baita bigarrena baina askoz gehiago erabilia ere. 2020an Web orrialde guztien %95 baino gehiago dira UTF-8-rekin kodetuta daudenak. Are gehiago, % 100-ra arte ailegatu zen 2020an hizkuntza batzuetarako.

Thumb
Sareko kodeketa nagusien erabilera 2001tik 2012ra.[1]
Remove ads

UTF-8 estandarra beti erabiltzeko aholkua

Landu behar dituen testu-fitxategi guztiak UTF-8 kodekeran jartzea komeni zaio Informatikariari. Horrela etorkizuneko hainbat arazo ekidingo du hasiera-hasieratik. Linux sistema eragileko iconv komandoa guztiz lagungarria da horretan; fitxategi berri bat jasotzen duen bakoitzean, informatikariak fitxategiaren kodetze-modua zein den jakin beharko du, eta UTF-8 ez bada, momentuan sortu beharko du fitxategiaren UTF-8 bertsioa (iconv komandoa erabiliz, esaterako).[2]

Adibidez, testukk.txt fitxategia ISO-8859-1 kodekeratik UTF-8 kodekera pasa eta emaitza testukk_utf8.txt fitxategian gorde:

$ iconv -f ISO-8859-1 -t UTF-8 -o testukk_utf8.txt testukk.txt
Remove ads

Zabalera aldakorreko errepresentazioa

Zabalera aldakorra erabiltzen du UTF-8k, kasu batzuetan karaktere bat errepresentatzeko byte bat (8 bit) erabiltzen du, eta beste kasu batzuetan byte gehiago, lau byte arteraino, eta horrela Unicodeko 1.112.064 kode desberdin[nb 1] (kode-puntu) definitzeko gai da. Kodetzeko modua Unicode estandarrak definitu zuen eta Ken Thompson-ek eta Rob Pike-k diseinatu zuten.[3] Izena sigla bat da, Unicode (edo Universal Coded Character Set ) Transformazio Format (8 bit) kontzeptutik eratorria da.

Thumb
'ñ' karakterea eta UTF-8 kudeaketa

ASCIIrekin bateragarria izateko diseinatu zen. Zenbaki baxuenak dituzten kode-balioak (kode-puntuak) maizago gertatzen diren karaktereak errepresentatzeko erabiltzen dira; horrela byte gutxiagorekin kodetzen dira. Unicodeko lehen 128 karaktereak ASCIIkoak dira, ASCIIko balio bitar bera dute eta horiexek dira byte bakarra erabiltzen dutenak. Beraz, ASCIIz ondo kodetutako testu bat UTF-8-z ondo kodetutako testua ere bada. Baina testuan agertzen bada ASCII multzoan ez dagoen karaktererik, bat baino ez bada ere, esate baterako 'ñ' letra bat edo 'ü' letra bat, orduan arazoak sortuko dira fitxategi horren erabileran fitxategi osoa UTF-8rekin kodetu ez bada.[4]

Informazio gehiago Byte kopurua, Kode-puntu bakoitzeko bit kopurua ...

Adibide batzuk:

Informazio gehiago Character, Kodearen puntua ...
Remove ads

Oharrak

  1. 17 planes times 216 code points per plane, minus 211 technically-invalid surrogates.

Erreferentziak

Kanpo estekak

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads