Unicode
From Wikipedia, the free encyclopedia
Remove ads
(транскр. Junikod industrijski je standard za dosledno enkodovanje, prikaz i rukovanje tekstom iz većine svetskih pisama.
![]() |

Remove ads
Razvoj elektronskog zapisa teksta
Prvi računari su bili pravljeni pretežno za englesko govorno područje i imali su podršku samo za engleski alfabet, za brojeve, zagrade i još poneki kontrolni znak, što je činilo ukupno 128 mogućih slova (u 7 bita). To je bio tzv. ili (američki) standard.
Kasnije je skup znakova proširen na 256 (8 bita), a „gornjih「 128 znakova je bilo korišćeno za dodatne znakove. Iz neke navike je i ovaj prošireni nazivan , tako da tu često dolazi do zabune. Da bi postojala podrška za više jezika, smišljane su tzv. kodne strane koje definišu ponašanje tog dodatnog skupa slova. Osnovna kodna strana na personalnim računarima u tom gornjem skupu definiše razne grafičke znakove za crtanje tekstualnih prozora i slično. Kasnije je razvijeno još puno kodnih strana koje podržavaju određene jezike. Tako postoje za latinična pisma Zapadne Evrope (Francuska, Njemačka, Španija, ...), i za latinična pisma Istočne Evrope (naša latinica i sl.), , i za ćirilicu... Osnovni problem sa kodnim stranama je to što se međusobno isključuju, tj. cijeli dokument mora da bude napisan istim pismom. To uglavnom nije problem realizovati, ali ako bi bilo potrebno pomiješati dva pisma, kao na primer u nekom turističkom vodiču gde zajedno postoji i tekst na srpskom, na engleskom i na francuskom, nailazi se na problem. Zbog toga se došlo do ideje da se napravi jedinstveni zapis za sve jezike - Unikod.
Remove ads
Pregled postojećih verzija Unikoda
Postoji više verzija Unikoda. Osnovna verzija je dvobajtni format zapisa do znakova. Njen naziv je zato što koristi dva okteta, odnosno dva bajta. Sa tih 65536 znakova riješen je problem zapisa skoro svih postojećih pisama (uključujući čak i neka izmišljena, kao na primer klingonsko pismo). Ovaj tip Unikoda se naziva ili .
Sada se javlja problem alokacije (dodele) prostora za Unikod-kodiranu poruku na medijumu koji se koristi. Ako je reč o nekom dokumentu na disku, on će da zauzima duplo više prostora nego konvencionalan dokument jer će se svaki znak zapisivati sa dva bajta umesto samo sa jednim. Ako je riječ o prenosu podataka preko računarske mreže, biće potrebno prenijeti duplo više podataka, pa će samim tim i prenos da traje duplo više (odnosno da košta duplo više). Postavlja se pitanje da li je to suviše velika cijena za univerzalno pismo i da li postoji neki način da se taj problem prevaziđe i izbjegne. Kao rješenje uvijek stoji mogućnost da se zapisuje nekom odgovarajućom kodnom stranicom i troši bajt po znaku, ako nije neophodno korišćenje više pisama u istom dokumentu (što se rijetko dešava). Drugo rješenje je korišćenje tzv. transformacionih šema za pogodniji zapis i prenos podataka korišćenjem Unikoda.
Prvo je razvijena Unikod transformaciona šema sa osnovnom jedinicom od 8 bita . Pomoću nje se znak zapisuje u jednom, dva ili tri bajta, u zavisnosti od toga o kom je znaku reč. Ova transformaciona šema je prevashodno zgodna za upotrebu u jezicima koji koriste latinicu. O će biti više reči u poglavlju Ukratko o .
Jedan dio -a, kao i zvanični standard za elektronsku poštu , podržava samo 7-bitne poruke. standardi i omogućavaju prenos višebitnih riječi preko Internet -a, koristeći i načine kodiranja, međutim, oni nisu pravljeni za prenos Unikoda nego za prenos bilo kakvih datoteka i nisu bili optimalna rješenja. Zbog toga je kasnije razvijena 7-bitna transformaciona šema . Tu se znak zapisuje u jednom ili u nekoliko bajtova, slično kao i u . Osnovna razlika je u tome što koristi samo kodirane znakove koji bez problema (uvek mogu da se pravilno odštampaju) mogu da se prenose putem elektronske pošte. Za takvu namenu se pokazalo da je bolji zapis nego kada se kodira sa ili sa algoritmima.
Postoji i noviji Unikod standard pod nazivom koji koristi 4 bajta za zapis = 2147483648 znakova podijeljenih u tzv. ravni. Prva dva bajta definišu ravan, tako da ima = 32768 ravni. Druga dva bajta definišu znak unutar ravni, tako da ima = 65536 znakova po ravni. Taj noviji format je više napravljen kao plan za budućnost nego kao realna opcija, pošto još uvijek nijedan znak nije alociran u novodobijeni prostor, odnosno svi za sada definisani znakovi (cijeli ) se nalaze u ravni 0 ili osnovnoj višejezičnoj ravni . Međutim, pošto je novi standard za Unikod, treba i njega imati u vidu. Da bi se transparentno uveo u upotrebu redefinisani su formati zapisa i . To je učinjeno tako da svaki znak iz ima istu reprezentaciju u i kao i ranije. je u neku ruku sinonim za i sadrži više od dva bajta samo u slučaju da se kodira neki znak van „Osnovne jezičke ravni「 , koji za sada ne postoje. Za više informacija, pogledajte tabelu Šema kodiranja u . je u stvari način zapisa u kome se koriste sva četiri bajta. Zbog toga što viši i niži bajt (ili dva bajta) mogu da se zapišu u memoriju na dva načina, postoje još po dvije podvarijante i koje se razlikuju po redosledu bajtova. To su i i i . Ovo nije uvedeno da bi se uvela dodatna zabuna i zbrka, nego zato što različite arhitekture računara različito čuvaju podatke.
Postoje dvije organizacije koje definišu dva standarda za Unikod. Jedan format je razvijen od strane tzv. pod nazivom . Drugi standard je razvila Međunarodna organizacija za standardizaciju - , pod nazivom . Ta dva standarda su skoro identična i razlikuju se po pitanju tzv. Han unifikacije (predstavljanje japanskih, kineskih i korejskih znakova jednim jedinstvenim skupom znakova), oko dodatnih znakova za definisanje akcenata, a od skoro i u tome što nije još podržao standard . Međutim, za našu upotrebu slobodno možemo da smatramo da su potpuno identični. Međunarodna organizacija koja definiše standarde za Internet - je u svojim standardima, tzv. „zahtjevima za komentarima「 , u kojima je definisano sve što postoji na Internetu, prihvatila i i i , čime su oni i „zvanično「 ušli u upotrebu na Internetu, tj. svuda. U najnovijim standardima je izostavio i koristi samo verziju 10646, što znači da je zvanično priznata verzija 10646.
U jeziku za opis veb stranica se javljaju još dva načina za kodiranje Unikod znakova. Ovi načini troše mnogo više prostora nego originalni Unikod zapis i namijenjeni su za korišćenje unutar neke od kodnih stranica za ubacivanje ponekog znakova iz neke druge kodne stranice. Jedan način je zapis oktalnih vrednosti bajtova. Zapisuje se tako što se prvo zapiše znak ;, pa onda oktalna vrijednost bajta. Ako taj znak u kodiranju sadrži više bajtova, svaki bajt se zapisuje na isti način. Tako, na primjer, znak ; čiji je kod označava da je riječ o Unikod znaku), a zapis ima svoj oktalni zapis kao , pošto je (oktalni) = 208(decimalni) i .
Drugi način zapisa Unikod znakova u -u je putem decimalne vrijednosti njihovog koda. Zapisuje se tako što se prvo zapišu znakovi pa onda decimalna vrijednost koda i na kraju znak . Tako bi se, na primjer, gore pomenuti znak ; sa kodom zapisao u decimalnom zapisu kao , pošto je .
Uređivač teksta
Neki tekstualni uređivači takođe imaju opciju da sačuvaju tekst na više načina kodiranja. Jedan od takvih je koji je sastavni deo grafičkog okruženja KDE pod operativnim sistemom Linuks. On takođe može da sačuva tekst i u čistom formatu ili u (kao delu ). Za nas je bitan samo format . Jednostavno se iz menija Prikaz izabere podmeni Podesi kodiranje i tu se izabere željeno kodiranje, odnosno .
- pretvarač kodiranja
Na UNIX operativnim sistemima postoji biblioteka koja vrši konverziju iz jednog u drugi način kodiranja na veoma jednostavan način. Postoji i ekvivalentan komandno-linijski () program koji pretvara datoteke iz i u sve moguće načine kodiranja. Lista kodova iz kojih i u koje ova biblioteka/program može da konvertuje zauzima više od 3 pune strane i može se reći da podržava sve moguće načine kodiranja.
Fontovi koji podržavaju Unikod
Da bi se koristio Unikod u pripremi dokumenata, potrebno je imati odgovarajuće fontove koji ga (barem djelimično) podržavaju. Od fontova dostupnih na Windows-u, Unikod sigurno podržavaju , , , i , a takođe su instalirani na svim Windows platformama, tako da bi generalno trebalo da se koristi neki od tih fontova. Fontovi tipa ili mogu da prikažu naše znakove, ali su daleko od Unikoda i u prenosu datoteke sa jednog na drugi računar u elektronskom obliku postoji velika šansa da ta datoteka neće biti lepo čitljiva na drugom računaru, tako da bi trebalo da se takvi nestandardni fontovi izbegavaju koliko god je to moguće.
Na Linuksu i ostalim -ima se u samom nazivu fonta vidi da li podržava Unikod ili ne, pošto poslednji deo naziva fonta predstavlja (skup znakova) fonta. Ako tu piše , to znači da je font kompatibilan sa Unikodom. Međutim, i ovde bih radi prenosivosti dokumenata, preporučio da se koriste standardni (Adobe-jevi) fontovi, kao što su , , , .
Remove ads
Unikod, baze podataka i
Svjetski trendovi razvoja baza podataka idu ka uvođenju Unikoda, kao standardni način zapisa podataka i XML-a, kao standardni jezik za prenos i prezentaciju tih podataka.
Većina baza podataka već duže vreme podržava Unikod. Dobar deo aplikacija za rad sa bazama koriste za prezentovanje i prenos podataka, zato što se pokazalo da je jednostavan jezik za programiranje, za koji već postoji puno raščlanjivača i zato što se pokazalo da je dovoljno fleksibilan da može da prenese bilo kakav tip podataka na sličan način. Da bi se programi međusobno „razumjeli「, razvijeni su razni standardi za opis podataka koristeći (kao što je, na primjer, ).
To uvođenje -a kao glavnog jezika za podršku bazama podataka je još više učvrstilo poziciju Unikoda, pošto se datoteke standardno pišu u UTF-8 ili UTF-16. Zanimljiva je i ta činjenica da je Majkrosoft, koji se uglavnom protivi svim standardima i trudi se da definiše svoje, prihvatio i koristi ga gdje god može. Cela tehnologija je zasnovana na -u. Zbog toga može da se očekuje da će u budućnosti biti samo više -a i više Unikoda i da je bitno što ranije se orijentisati ka njima.
Tabela kodova za naša slova
U tabeli 2 su izlistani skoro svi znakovi koji se kod nas (u Srbiji i na prostoru bivše Jugoslavije) koriste, sa svojim kodom, zapisom i sa oktalnim i decimalnim zapisima (za više informacija pogledajte poglavlje 2).
Karakter | Izgled | UTF-8 | oktalna | decimalna |
Velika latinična slova | ||||
U+0041 | A | 0x41 | \101 | A |
U+0042 | B | 0x42 | \102 | B |
U+0043 | C | 0x43 | \103 | C |
U+0044 | D | 0x44 | \104 | D |
U+0045 | E | 0x45 | \105 | E |
U+0046 | F | 0x46 | \106 | F |
U+0047 | G | 0x47 | \107 | G |
U+0048 | H | 0x48 | \110 | H |
U+0049 | I | 0x49 | \111 | I |
U+004A | J | 0x4A | \112 | J |
U+004B | K | 0x4B | \113 | K |
U+004C | L | 0x4C | \114 | L |
U+004D | M | 0x4D | \115 | M |
U+004E | N | 0x4E | \116 | N |
U+004F | O | 0x4F | \117 | O |
U+0050 | P | 0x50 | \120 | P |
U+0051 | Q | 0x51 | \121 | Q |
U+0052 | R | 0x52 | \122 | R |
U+0053 | S | 0x53 | \123 | S |
U+0054 | T | 0x54 | \124 | T |
U+0055 | U | 0x55 | \125 | U |
U+0056 | V | 0x56 | \126 | V |
U+0057 | W | 0x57 | \127 | W |
U+0058 | X | 0x58 | \130 | X |
U+0059 | Y | 0x59 | \131 | Y |
U+005A | Z | 0x5A | \132 | Z |
Mala latinična slova | ||||
U+0061 | a | 0x61 | \141 | a |
U+0062 | b | 0x62 | \142 | b |
U+0063 | c | 0x63 | \143 | c |
U+0064 | d | 0x64 | \144 | d |
U+0065 | e | 0x65 | \145 | e |
U+0066 | f | 0x66 | \146 | e |
U+0067 | g | 0x67 | \147 | g |
U+0068 | h | 0x68 | \150 | h |
U+0069 | i | 0x69 | \151 | i |
U+006A | j | 0x6A | \152 | j |
U+006B | k | 0x6B | \153 | k |
U+006C | l | 0x6C | \154 | l |
U+006D | m | 0x6D | \155 | m |
U+006E | n | 0x6E | \156 | n |
U+006F | o | 0x6F | \157 | o |
U+0070 | p | 0x70 | \160 | p |
U+0071 | q | 0x71 | \161 | q |
U+0072 | r | 0x72 | \162 | r |
U+0073 | s | 0x73 | \163 | s |
U+0074 | t | 0x74 | \164 | t |
U+0075 | u | 0x75 | \165 | u |
U+0076 | v | 0x76 | \166 | v |
U+0077 | w | 0x77 | \167 | w |
U+0078 | x | 0x78 | \170 | x |
U+0079 | y | 0x79 | \171 | y |
U+007A | z | 0x7A | \172 | z |
Naša dodatna latinična slova | ||||
U+0106 | Ć | 0xC4 0x86 | \304\206 | Ć |
U+0107 | ć | 0xC4 0x87 | \304\207 | ć |
U+010C | Č | 0xC4 0x8C | \304\214 | Č |
U+010D | č | 0xC4 0x8D | \304\215 | č |
U+0110 | Đ | 0xC4 0x90 | \304\220 | Đ |
U+0111 | đ | 0xC4 0x91 | \304\221 | đ |
U+0160 | Š | 0xC5 0xA0 | \305\240 | Š |
U+0161 | š | 0xC5 0xA1 | \305\241 | š |
U+017D | Ž | 0xC5 0xBD | \305\275 | Ž |
U+017E | ž | 0xC5 0xBE | \305\276 | ž |
Velika ćirilična slova | ||||
U+0402 | Ђ | 0xD0 0x82 | \320\202 | Ђ |
U+0408 | Ј | 0xD0 0x88 | \320\210 | Ј |
U+0409 | Љ | 0xD0 0x89 | \320\211 | Љ |
U+040A | Њ | 0xD0 0x8A | \320\212 | Њ |
U+040B | Ћ | 0xD0 0x8B | \320\213 | Ћ |
U+040F | Џ | 0xD0 0x8F | \320\217 | Џ |
U+0410 | А | 0xD0 0x90 | \320\220 | А |
U+0411 | Б | 0xD0 0x91 | \320\221 | Б |
U+0412 | В | 0xD0 0x92 | \320\222 | В |
U+0413 | Г | 0xD0 0x93 | \320\223 | Г |
U+0414 | Д | 0xD0 0x94 | \320\224 | Д |
U+0415 | Е | 0xD0 0x95 | \320\225 | Е |
U+0416 | Ж | 0xD0 0x96 | \320\226 | Ж |
U+0417 | З | 0xD0 0x97 | \320\227 | З |
U+0418 | И | 0xD0 0x98 | \320\230 | И |
U+041A | К | 0xD0 0x9A | \320\232 | К |
U+041B | Л | 0xD0 0x9B | \320\233 | Л |
U+041C | М | 0xD0 0x9C | \320\234 | М |
U+041D | Н | 0xD0 0x9D | \320\235 | Н |
U+041E | О | 0xD0 0x9E | \320\236 | О |
U+041F | П | 0xD0 0x9F | \320\237 | П |
U+0420 | Р | 0xD0 0xA0 | \320\240 | Р |
U+0421 | С | 0xD0 0xA1 | \320\241 | С |
U+0422 | Т | 0xD0 0xA2 | \320\242 | Т |
U+0423 | У | 0xD0 0xA3 | \320\243 | У |
U+0424 | Ф | 0xD0 0xA4 | \320\244 | Ф |
U+0425 | Х | 0xD0 0xA5 | \320\245 | Х |
U+0426 | Ц | 0xD0 0xA6 | \320\246 | Ц |
U+0427 | Ч | 0xD0 0xA7 | \320\247 | Ч |
U+0428 | Ш | 0xD0 0xA8 | \320\250 | Ш |
Mala ćirilična slova | ||||
U+0430 | а | 0xD0 0xB0 | \320\260 | а |
U+0431 | б | 0xD0 0xB1 | \320\261 | б |
U+0432 | в | 0xD0 0xB2 | \320\262 | в |
U+0433 | г | 0xD0 0xB3 | \320\263 | г |
U+0434 | д | 0xD0 0xB4 | \320\264 | д |
U+0435 | е | 0xD0 0xB5 | \320\265 | е |
U+0436 | ж | 0xD0 0xB6 | \320\266 | ж |
U+0437 | з | 0xD0 0xB7 | \320\267 | з |
U+0438 | и | 0xD0 0xB8 | \320\270 | и |
U+043A | к | 0xD0 0xBA | \320\272 | к |
U+043B | л | 0xD0 0xBB | \320\273 | л |
U+043C | м | 0xD0 0xBC | \320\274 | м |
U+043D | н | 0xD0 0xBD | \320\275 | н |
U+043E | о | 0xD0 0xBE | \320\276 | о |
U+043F | п | 0xD0 0xBF | \320\277 | п |
U+0440 | р | 0xD0 0xC0 | \320\280 | р |
U+0441 | с | 0xD0 0xC1 | \320\281 | с |
U+0442 | т | 0xD0 0xC2 | \320\282 | т |
U+0443 | у | 0xD0 0xC3 | \320\283 | у |
U+0444 | ф | 0xD0 0xC4 | \320\284 | ф |
U+0445 | х | 0xD0 0xC5 | \320\285 | х |
U+0446 | ц | 0xD0 0xC6 | \320\286 | ц |
U+0447 | ч | 0xD0 0xC7 | \320\287 | ч |
U+0448 | ш | 0xD0 0xC8 | \320\290 | ш |
U+0452 | ђ | 0xD1 0x92 | \321\222 | ђ |
U+0458 | ј | 0xD1 0x98 | \321\230 | ј |
U+0459 | љ | 0xD1 0x99 | \321\231 | љ |
U+045A | њ | 0xD1 0x9A | \321\232 | њ |
U+045B | ћ | 0xD1 0x9B | \321\233 | ћ |
U+045F | џ | 0xD1 0x9F | \321\237 | џ |
Remove ads
Problemi sa Unikodom

U Unikodu srpski i makedonski jezik, odnosno njihova ćirilička pisma, nisu tzv. „građani prvog reda」, kao što se može videti na slici desno. Pri dizajnu Unikoda početkom 1990-ih godina, nije uzeto u obzir da se ćirilička pisma manje-više razlikuju u dizajnu pojedinih slova. To se ispoljava u kurzivu (iskošeno ili polupisano), ali, kao što se vidi na slici, i sa malim slovom u osnovnom režimu. U ruskoj verziji ono veoma nalikuje broju 6, dok u srpskoj verziji to nije slučaj, osim u izuzetno malim veličinama.
Zbog veličine tržišta (Ruska Federacija i okolne zemlje iz bivšeg Sovjetskog Saveza, kao i Bugarska), većina fontova koja sadrže ćirilicu, preferira rusku ćirilicu na standardnim mestima Unikoda, odnosno ruski dizajn grafije, pa srpski i makedonski jezik najviše trpe zbog ovoga. Iako su velika preduzeća kao što su Adobi sistems () i Majkrosoft () upoznata sa ovim problemom, još uvek se ne zna da li će i kada i ovi jezici postati „građani prvog reda」 u sistemu Unikod.
U međuvremenu, rešenje može pružiti tehnologija kao što je Opentajp (, naročito njeno svojstvo locl
()), softver koji je podržava i moderni fontovi koji sadrže ispravna srpska/makedonska slova. Dobri primeri su operativni sistem GNU/Linuks (), kancelarijski paket Libreofis () pod Linuksom i veb-čitač Mozila Fajrfoks ().
Evo primera za „privremeno」 rešenje u veb tehnologijama. U osnovnoj verziji:
<span lang="sr">бгдпт</span>
daje бгдпт<span lang="ru">бгдпт</span>
daje бгдпт
a polupisano ili iskošeno:
<span lang="sr" style="font-style: italic">бгдпт</span>
daje бгдпт<span lang="ru" style="font-style: italic">бгдпт</span>
daje бгдпт.
Dakle, mora se koristiti atribut lang="sr"
, i svaka veb prezentacija na srpskom jeziku treba da ima <html lang="sr">
ili <html lang="sr-RS">
. Analogno ovome, i u XML i sličnim tehnologijama. Sve druge oznake, ili neoznačavanje uopšte, čini prikaz srpske ćirilice uglavnom neispravnim. Takođe, počevši od -a 3, veb autori mogu da koriste font-feature-settings: 'locl';
.
Naravno, moderne porodice fontova kao sto su , , , ili Majkrosoftovi „」 fontovi () od Viste pa na dalje moraju se koristiti (takođe i od -a 8.1). Od Adobija dobri primeri su Arno Pro, Baskerville Cyrillic LT Std, Excelsior LT Std, Garamond Premier Pro, Sava Pro, Times Ten LT Std i Warnock Pro. Važno je ovde napomenuti da i kad imaju srpska/makedonska slova, neki fontovi ne podržavaju makedonski jezik samo zato što im nedostaje određena Opentajp naredba za to, koja mora da bude prisutna u samom fontu. (Dakle, makedonski jezik je još više ugrožen.)
Pored primera sa slovima , rusko veliko polupisano identično je latiničkom slovu , što je takođe neprihvatljivo za srpski i makedonski jezik, a pomalo se razlikuje i dizajn velikih polupisanih slova i .

Naposletku, otežano je i unošenje akcentovanih ćiriličkih slova, a u postojećoj bazi znakova u Unikodu nema dovoljno unapred definisanih ćiriličkih za ovu svrhu.
Remove ads
Vidi još
Literatura
- Filip Brčić. Ukratko o xml-u, Januar 2003. http://brcha.free.fr/documents/XMLtut/xmltut.pdf[мртва веза].
- The Unicode Consortium. The Unicode Standard - Version 3.0. Addison-Wesley, http://www.unicode.org, 2000.
- World Wide Web Consortium. Extensible markup language (xml) 1.1. Candidate recommendation, https://web.archive.org/web/20031224032806/http://www.w3c.org/TR/xml11/, 2002.
- M. Davis D. Goldsmith. Utf-7 - a mail-safe transformation format of unicode. Experimental 1642, Internet Engineering Task Force, https://web.archive.org/web/20090816034224/http://www.ietf.org/rfc/rfc1642.txt, 1994.
- M. Davis D. Goldsmith. Utf-7 - a mail-safe transformation format of unicode. Informational 2152, Internet Engineering Task Force, https://web.archive.org/web/20090424211936/http://www.ietf.org/rfc/rfc2152.txt, 1997.
- Ulrich Drepper. MANPAGE: Iconv(3) 2.2.5 - Perform character set conversion. Free Software Foundation, Inc., 2002.
- Bojan Marinković <mr99007@alas.matf.bg.ac.yu>. Encoded archival description document type definition. 2003.
- K. Moore. Multipurpose internet mail extensions (mime) part three: Message header extensions for non-ascii text. Standards Track 2047, Internet Engineering Task Force, https://web.archive.org/web/20090403034557/http://www.ietf.org/rfc/rfc2047.txt, 1996.
- J. Postel N. Freed, J. Klensin. Multipurpose internet mail extensions (mime) part four: Registration procedures. Standards Track 2048, Internet Engineering Task Force, https://web.archive.org/web/20090327075149/http://www.ietf.org/rfc/rfc2048.txt, 1996.
- N. Borenstein N. Freed. Multipurpose internet mail extensions (mime) part five: Conformance criteria and examples. Standards Track 2049, Internet Engineering Task Force, https://web.archive.org/web/20090513033429/http://www.ietf.org/rfc/rfc2049.txt, 1996.
- N. Borenstein N. Freed. Multipurpose internet mail extensions (mime) part one: Format of internet message bodies. Standards Track 2045, Internet Engineering Task Force, https://web.archive.org/web/20090409233528/http://www.ietf.org/rfc/rfc2045.txt, 1996.
- N. Borenstein N. Freed. Multipurpose internet mail extensions (mime) part two: Media types. Standards Track 2046, Internet Engineering Task Force, https://web.archive.org/web/20100724211854/http://www.ietf.org/rfc/rfc2046.txt, 1996.
- F. Yergeau P. Hoffman. Utf-16, an encoding of iso 10646. Informational 2781, Internet Engineering Task Force, https://web.archive.org/web/20090428074712/http://www.ietf.org/rfc/rfc2781.txt, 2000.
- F. Yergeau. Utf-8, a trensformation format of unicode and iso 10646. Informational 2044, Internet Engineering Task Force, https://web.archive.org/web/20090419220823/http://www.ietf.org/rfc/rfc2044.txt, 1996.
- F. Yergeau. Utf-8, a transformation format of iso 10646. Standards Track 2279, Internet Engineering Task Force, https://web.archive.org/web/20090327062821/http://www.ietf.org/rfc/rfc2279.txt, 1998.
- DecodeUnicode - Unicode WIKI, 50.000 gifs
Remove ads
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads