യു.ടി.എഫ്-8

യു.ടി.എഫ്-8
Standard	Unicode Standard
Classification	Unicode Transformation Format, extended ASCII, variable-width encoding
Extends	US-ASCII
Transforms / Encodes	ISO 10646 (Unicode)
Preceded by	UTF-1
	ക; സ; തി;

യൂണികോഡിൽ ഉപയോഗിക്കുന്ന ഒരു എൻകോഡിങ്ങ് രീതിയാണ്‌ യു.ടി.എഫ്-8 (UTF-8)(8-bit UCS/Unicode Transformation Format). ഇലക്ട്രോണിക് ആശയവിനിമയത്തിനായി വേരിയബിൾ-വിഡ്ത് ക്യാരക്ടർ എൻ‌കോഡിംഗാണ് യു‌ടി‌എഫ്-8 ഉപയോഗിക്കുന്നത്. യൂണിക്കോഡ് സ്റ്റാൻഡേർഡ് നിർവചിച്ചിരിക്കുന്നത്, യൂണിക്കോഡ് (അല്ലെങ്കിൽ യൂണിവേഴ്സൽ കോഡെഡ് ക്യാരക്ടർ സെറ്റ്) ട്രാൻസ്ഫോർമേഷൻ ഫോർമാറ്റിൽ നിന്നാണ് ഈ പേര് ഉരുത്തിരിഞ്ഞത് - 8-ബിറ്റ്.^[1]

വസ്തുതകൾ Standard, Classification ...

ഒന്നോ നാലോ വൺ-ബൈറ്റ് (8-ബിറ്റ്) കോഡ് യൂണിറ്റുകൾ ഉപയോഗിച്ച് യൂണിക്കോഡിലെ 1,112,064[nb 1]ചട്ടമനുസരിച്ചുള്ള ക്യാരക്ടർ കോഡ് പോയിന്റുകൾ എൻകോഡുചെയ്യാൻ യുടിഎഫ്-8 ന് കഴിയും. കുറഞ്ഞ സംഖ്യാ മൂല്യങ്ങളുള്ള കോഡ് പോയിന്റുകൾ, കുറച്ച് ബൈറ്റുകൾ ഉപയോഗിച്ച് എൻ‌കോഡുചെയ്‌തു. ആസ്കിയുമായുള്ള ബാക്ക്വേർഡ് കോംപാറ്റിബിളിറ്റിക്കായി ഇത് രൂപകൽപ്പന ചെയ്തിട്ടുണ്ട്: ആസ്കിയുമായി ഒന്നിനോട് യോജിക്കുന്ന യൂണിക്കോഡിന്റെ ആദ്യ 128 പ്രതീകങ്ങൾ ആസ്കിയുടെ അതേ ബൈനറി മൂല്യമുള്ള ഒരൊറ്റ ബൈറ്റ് ഉപയോഗിച്ച് എൻ‌കോഡുചെയ്യാൻ കഴിഞ്ഞു.

ഈ എൻകോഡിങ്ങ് രീതിയനുസരിച്ച് യൂണികോഡിലുള്ള ഏതു ചിഹ്നങ്ങളെയും സൂചിപ്പിക്കുവാൻ കഴിയും മാത്രവുമല്ല ഇത് ആസ്കി (ASCII) എൻകോഡിങ്ങിനെ ഉൾക്കൊള്ളുന്നുമുണ്ട്. അതിനാൽ തന്നെ കമ്പ്യൂട്ടർ വിവരസാങ്കേതിക രംഗത്ത് നിലവിൽ ഏറ്റവും സ്വീകാര്യമായ എ‌ൻകോഡിങ്ങ് രീതിയായി ഇത് മാറി. ഇ-മെയിൽ, വെബ് താളുകൾ,^[2] തുടങ്ങി ക്യാരക്ടറുകൾ ശേഖരിക്കുകയും കൈമാറ്റം ചെയ്യുകയും ചെയ്യുന്ന മേഖലകളിൽ ഇത് ഉപയോഗിക്കപ്പെടുന്നു.

യു.ടി.എഫ്-8 ൽ ഓരോ ചിഹ്നത്തെയും ഒന്നും മുതൽ നാല്‌ ഒക്ടെറ്റുകളിലായി (Octet, എട്ട് ബിറ്റുകളുടെ നിര അതായത് ഒരു ബൈറ്റ്) രേഖപ്പെടുത്തപ്പെടുന്നു. 128 യു.എസ്-ആസ്കി (US-ASCII) ക്യാരക്ടറുകൾ മാത്രമാണ്‌ ഒരു ബൈറ്റിലായി രേഖപ്പെടുത്തപ്പെടുന്നത്. മറ്റുള്ളവ രണ്ട് മുതൽ നാല്‌ ബൈറ്റുകളിലായി വിന്യസിക്കപ്പെടുന്ന. ഈ രീതിയിൽ മലയാളം ക്യാരക്ടറുകൾ രേഖപ്പെടുത്തുവാൻ മൂന്ന് ബൈറ്റുകൾ വീതം ആവശ്യമാണ്‌.

[1]

[2]

Unicode	Byte1	Byte2	Byte3	Byte4	example
`U+0000-U+007F`	`0xxxxxxx`				'$' `U+0024` → `00100100` → `0x24`
`U+0080-U+07FF`	`110yyyxx`	`10xxxxxx`			'¢' `U+00A2` → `11000010,10100010` → `0xC2,0xA2`
`U+0800-U+FFFF`	`1110yyyy`	`10yyyyxx`	`10xxxxxx`		'€' `U+20AC` → `11100010,10000010,10101100` → `0xE2,0x82,0xAC`
`U+10000-U+10FFFF`	`11110zzz`	`10zzyyyy`	`10yyyyxx`	`10xxxxxx`	`U+10ABCD` → `11110100,10001010,10101111,10001101` → `0xF4,0x8A,0xAF,0x8D`

യു.ടി.എഫ്-8

വിവരണം

അവലംബം

Wikiwand - on