ယူနီကုဒ်

စာလုံး သိမ်းဆည်းပုံ စံစနစ် From Wikipedia, the free encyclopedia

ယူနီကုဒ်
Remove ads
Remove ads

[good ၁]ကွန်ပျူတာတွင် ယူနီကုဒ်သည် ကမ္ဘာပေါ်ရှိ စာရေးစနစ် (writting system) အားလုံးနီးပါး ပါရှိပြီး ကွန်ပျူတာများနှင့် လိုက်ရောညီထွေ ရှိစေရေးအတွက် သက်မှတ်ထားသော စက်မှုစံ (industry standard) တစ်ခုဖြစ်သည်။ Universal Character Set စံနှင့်အတူ ယူနီကုဒ်စံသည် အက္ခရာပေါင်း ၁၀၀ ၀၀၀ ကျော်ပါသော စာအုပ် ထုတ်ဝေခဲ့သည်။ ထိုစံစာအုပ်တွင် ကိုးကားရန် ဇယားများ၊ encoding နည်းစဉ်များ၊ character encoding စံများ၊ အက္ခရာ၏ သဘောသဘာဝများ (ဥပမာ စာလုံးကြီး၊ စာလုံးသေး)၊ အထောက်အကူပြု computer file များ၊ အခြား သက်ဆိုင်ရာများ (အက္ခရာသဘော၊ normalization ဥပဒေ၊ ခွဲခြင်း၊ ပေါင်းခြင်း၊ rendering နှင် နှစ်ဖက်သွား စာများ၏ အစဉ်၊ ဘယ်ညာ သဘောများ၊ စသည့်) ပါရှိသည်။[]

Thumb
ယူနီကုဒ်လိုဂို

အမြတ်မယူ အသင်းအဖွဲ့ ဖြစ်သော Unicode Consortium သည် ယူနီကုဒ် ရှင်သန်တိုးတက်ရေးအတွက် ကြိုးစားမှုတွင် ရှိပြီး character encoding အားလုံးကို ယူနီကုဒ် ဖြင့်အစားထိုးသွားရန် ရည်ရွယ်သည်။ ယူနီကုဒ် ၏ Unicode Transformation Format (UTF) scheme များတွင် ရှိပြီး encoding နည်းများသည် ဘာသာစုံ (multilingual) အတွက် လိုအပ်လျက်ရှိသည်။

ဘာသာစုံ ပါဝင်သော ယူနီကုဒ် ၏ အောင်မြင်မှုကြောင့် computer software ကို internationalization and localization လုပ်ရာတွင် များစွာ အသုံးချလျက်ရှိသည်။ ယူနီကုဒ်စံစနစ်ကို ယခု ပေါ်ပေါက်နေသော XMLJava programming languageMicrosoft .NET Framework နှင့် ခေတ်ပေါ် Operating System များတွင် အသုံးချလျက်ရှိသည်။

ယူနီကုဒ်စံစနစ်ကို အသုံးပြုရာတွင် character encoding မျိုးစုံ အသုံးပြုနိုင်သည်။ အသုံးအများဆုံးမှာ UTF-8 (1 byte ကို ASCII အက္ခရာ အတွက် နှင့် ၄ byte အထိ ကျန် နေများကို အခြား အက္ခရာ အတွက်)၊ မသုံးတော့သော UCS-2 (2 bytes ကို အက္ခရာ အားလုံးအတွက် သို့သော် ယူနီကုဒ် အက္ခရာ အားလုံးမပါ) နှင့် UTF-16 (၄ bytes သုံးပြီး UCS-2 ကို ထက်ဆင့်၍ ကျန်ရှိနေသေးသော ယူနီကုဒ် အက္ခရာ များကို ထည့်သွင်း) ဖြစ်ကြသည်။

Remove ads

အစဦး နှင့် တိုးတက်ပြောင်းလဲခြင်း

ယူနီကုဒ်သည် ရှေးရိုး သုံးလာခဲ့ကြသော စာလုံး သိမ်းဆည်းပုံ (character encoding) များ၊ ISO 8859 စံ များ ကို ကျယ်ကျယ်ပြန့်ပြန့် သတ်မှတ်လိုသည်။ ISO 8859 စံ သည် နိုင်ငံပေါင်းများစွာ၏ အသုံးအနှုန်းများ ကို သတ်မှတ်နိုင်ခဲ့သော်လည်း တစ်ခုနှင့်တစ်ခု ပြောင်းလဲ၍ (incompatible) သုံးနှုန်းမရပေ။ များစွာသော ရှေးရိုးရာ စာလုံး သိမ်းဆည်းပုံ၏ တွေ့နေကျ ပြဿနာမှာ ဘာသာနှစ်မျိုး ရရန် ပြုလုပ်ခြင်း (များသောအားဖြင့် Roman characters နှင် ဒေသစာ) တွင် ဘာသာမျိုးစုံ အတွက်မပါပေ။

ယူနီကုဒ်သည် သဘောအားဖြင့် စာလုံးပုံ (glyph) များကို ထက် အခြေခံ စာလုံး (character) များ — graphemes and grapheme-like units — ကို သိမ်းဆည်းထားသည်။ တရုတ်စာတွင် အခြေခံ စာလုံး နှင် စာလုံးပုံ တို့ကိုခွဲခြားရန် ခက်ခဲသည်။

စာစီ၊ စာရိုက်ခြင်း (text processing) တွင် ယူနီကုဒ်သည် စာလုံးတိုင်းအတွက် အတုမရှိသော စာခွက် (code point) — စာလုံးပုံ အစား နံပါတ်တစ်ခု — ရှိရေး တာဝန်ယူသည်။ တစ်နည်းအားဖြင့် ယူနီကုဒ်သည် စာလုံးများကို မူရင်းသဘာဝ (an abstract way) ကိုကိုယ်စားပြုပြီး ပုံဖော်ရန် အတွက်ကိုမူ (အရွယ်၊ ပုံ၊ ဖောင့် (သို့) သဏ္ဌာန်) software (web browser, word processor) ၏တာဝန်အဖြစ် ချန်ထားခဲ့သည်။ ထိုမျှရှင်းလင်းသော ကြိုးစားမှုပင် ရှုပ်ထွေးရသော အကြောင်းမှာ ယူနီကုဒ် ဒီဇိုင်းပြုသူများ ယူနီကုဒ် ကျယ်ပြန့်စွာ အသုံးပြုရေး ကြိုးပမ်းမှုတွင် သဘောတူညီမှု မရနိုင်ခြင်းတို့ကြောင့်ဖြစ်သည်။

ယူနီကုဒ်၏ ပထမ ၂၅၆ လုံးမှာ ISO 8859-1 နှင့် တူသောကြောင့် ရှိပြီး အနောက်နိုင်ငံမှ စာများအတွက် အခက်အခဲ မရှိပေ။ များစွာသော အတူတူ စာလုံးများကို မတူသော စာခွက်များတွင် သတ်မှတ်ခြင်းမှာ ရှိပြီး စာလုံး သိမ်းဆည်းပုံ နှင့် အဆင်ပြေစေရန် ဖြစ်သည်။ ထို့ကြောင့် ရှိပြီးစာ များမှ ယူနီကုဒ်ကို ပြောင်းရာတွင် မှားယွင်းမှု မရှိနိုင်ပေ။

သမိုင်း

ယူနီကုဒ် သမိုင်းကို ၁၉၈၇ ခု Xerox မှ Joe Becker နှင့် Apple မှ Lee Collins and Mark Davis တို့က အပြည်ပြည်ဆိုင်ရာ စာလုံး စနစ် ဖြစ်နိုင်ခြေကို စတင် စူးစမ်းခဲ့သည်။[] ထိုနှစ် ဩဂုတ်လတွင် Joe Becker သည် "international/multilingual text character encoding system, tentatively called Unicode." စာတမ်းကို ထုတ်ဝေခဲ့သည်။ Unicode 88 ခေါင်းစဉ်ရှိသော ထိုစာတန်း၏ ၁၆ ဘစ် (bit) အခြေပြု စာလုံး မိုဒယ်တွင်

Unicode is intended to address the need for a workable, reliable world text encoding. Unicode could be roughly described as "wide-body ASCII" that has been stretched to 16 bits to encompass the characters of all the world's living languages. In a properly engineered design, 16 bits per character are more than sufficient for this purpose.

ဟုဖော်ပြခဲ့သည်။ မူလ ၁၆ ဘစ် (bit) အခြေပြု စာလုံး မိုဒယ်သည် ယခု သုံးစွဲနေသော စာရေးစနစ် များကိုသာ စဉ်းစားခဲ့သည်။ သို့သော် ယခုသုံးနေသော စာလုံးများမှာ

Unicode gives higher priority to ensuring utility for the future than to preserving past antiquities. Unicode aims in the first instance at the characters published in modern text (e.g. in the union of all newspapers and magazines printed in the world in 1988), whose number is undoubtedly far below 214 = 16,384. Beyond those modern-use characters, all others may be defined to be obsolete or rare; these are better candidates for private-use registration than for congesting the public list of generally-useful Unicodes.

ဟု သုံးသပ်ခဲ့သည်။ ဆိုလိုသည်မှာ ရှေးစာနှင့် အသုံးများသော စာလုံးများပါ ယူနီကုဒ်တွင် ပါဝင်ရန်လိုအပ်သည်။

စာဘာသာ ပါဝင်မှု

Thumb
များစွာသော ခေတ်ပေါ် applications များသည် ယူနီကုဒ်ကို ယခုကဲ့သို့ ကောင်းစွာ ဖော်ပြနိုင်သည်

ယူနီကုဒ်သည် ယခုခေတ် ကမ္ဘာပေါ်ရှိ စာရေးမှုစနစ် အားလုံး၏ စာဘာသာ (script) အားလုံး ပါဝင်သည်။ [good ၁]

alphabets, abugidas and syllabaries ပါဝင်သော စာဘာသာ ၇၅ မျိုး ကို လက်ရှိ ယူနီကုဒ်တွင်ပါဝင်သောလည်း အချို့သော စာဘာသာများ၊ ရှေးစာဘာသာများ နှင် ပညာသည် စာဘာသာများ ကို ဆက်လက် သက်မှတ်ရန် ကျန်ရှိသေးသည်။ ပညာသည် စာဘာသာများ ဖြစ်သည့် သင်္ကေတများ အထူးသဖြင် သင်္ချာနှင့် ဂီတ များ ကျန်ရှိသည်။ Michael Everson, Rick McGowan, and Ken Whistler တို့ပါဝင်သော ယူနီကုဒ် လမ်းစဉ် ကော်မတီ (The Unicode Roadmap Committee) သည် စာဘာသာ၊ စာရင်း နှင့် စာခွက် နေရာချထားမှု များကို ယူနီကုဒ် အဖွဲ့ (Unicode Consortium) ဝက်ဘ်စာမျက်နှာမှ ယူနီကုဒ် လမ်းစဉ် အဖြစ် တင်ပို့သည်။ အချို စာဘာသာများမှာ လမ်းစဉ်တွင် ရှိပြီး အဆိုတင်သွင်းဆဲ နှင့် အတည်ပြုရေး ပြုလုပ်ဆဲ ဖြစ်ကြသည်။

ယူနီကုဒ် ၅.၁ တွင် ရည်ရွယ်ထားသော စာဘာသာများမှာ Avestan, Egyptian Hieroglyphics, Tai Tham, Tai Viet, Imperial Aramaic, Inscriptional Pahlavi, Inscriptional Parthian, Javanese, Kaithi, Lisu, Meetei Mayek, Nü Shu, Old South Arabian, Old Turkic, Samaritan နှင် Tangut ဖြစ်ကြသည်။ အခြား စာဘာသာများမှာ Yi, ရှေး Uyghur and Oracle Bone Script တို့ ဖြစ်ကြသည်။

အသုံးနည်းသောကြောင့် ယူနီကုဒ်တွင်ပါဝင်ရန် မကိုက်ညီသော ခေတ်ပေါ် စာဘာသာများကို ConScript Unicode Registry တွင် Private Use Area များနှင်အတူ လျာထားသည်။

Remove ads

စံပြုခြင်း

ကယ်လီဖိုနီယား အခြေပြု Unicode Consortium သည် ယူနီကုဒ် စံပြုသည်။ ပါဝင်သူများမှာ ပါဝင်မှု အဆင့်ဆင့် ရှိပြီး မည်သည့် ကုမ္ပဏီ မည်သူမဆို ပါဝင်ကြေး ပေးနိုင်သ၍ ယူနီကုဒ် အဖွဲ့အစည်း ကို ပါဝင်နိုင်သည်။ တင်းပြည့် ပါဝင်သူများသည် အဓိက ကွန်ပျူတာ software နှင့် hardware ထုတ်လုပ်သူများ ဖြစ်သည် Adobe Systems, Apple, Google, HP, IBM, Microsoft, Sun Microsystems နှင့် Yahoo တို့ ဖြစ်ကြသည်။

ထိုအဖွဲ့အစည်းကြီးသည် ယူနီကုဒ် စံ (ISBN 0-321-18578-1) ကို ၁၉၉၁ တွင် ထုတ်ခဲ့ပြီး ဆက်လက် တိုးတက် ထုတ်လုပ်ခဲ့သည်။ နောက်ဆုံး စံမှာ ယူနီကုဒ် စံ ၅ (ISBN 0-321-48091-0) ဖြစ်ပြီး ၂၀၀၇ တွင် ထုတ်ဝေခဲ့သည်။ နောက်ဆုံး ပြင်ဆင်ချက် ယူနီကုဒ် စံ ၅.၁ အား ၂၀၀၈ ဧပြီ ၄ တွင် ထုတ်ဝေခဲ့သည်ကို ဝက်ဘ်ဆိုက်တွင် ရယူနိုင်သည်။

အောက်ဖော်ပြပါ များမှာ အဓိကနှင့် သာမည ယူနီကုဒ် စံ တို့ဖြစ်ကြသည်။ မြန်မာစာတွင် ယူနီကုဒ် စံ ၄.၀ တွင် စံမှားခဲ့သော၊ ယူနီကုဒ် စံ ၄.၁ တွင် အသုံးမတွင်သော Myanmar2၊ ယူနီကုဒ် စံ ၅.၁ တွင် အားနည်းချက်များကို ပြုပြင်ထားသော Myanmar3 ထွက်ရှိသည်။

နောက်ထပ် အချက်အလက်များ ဗားရှင်း, ရက်စွဲ ...
Remove ads

နေရာဆက်ပုံ (mapping) နှင့် သိမ်းဆည်းပုံ (encoding)

များစွာသော ယူနီကုဒ် သွင်းရေးအတွက် နည်းစဉ်များကို သက်မှတ်ရာမှာ မည်သည့် နည်းစဉ်ကို အသုံးပြုမည်ကို ဆုံးဖြတ်တာတွင် စာခွက် အသုံးပြုမှုနည်းခြင်း၊ source code ကိုက်ညီခြင်း နှင့် ရှိပြီး စနစ်များနှင် ကိုက်ညီခြင်း တို့အပေါ် မူတည်သည်။

Unicode Transformation Format (ယူနီကုဒ် အပြောင်းနည်းစဉ်) နှင့် Universal Character Set (စာလုံး စကြဝဠာ နည်းစဉ်)

ယူနီကုဒ်၏ နေရာဆက်ပုံ နည်းနှစ်ခုမှာ Unicode Transformation Format (UTF) သိမ်းဆည်းပုံ နှင့် Universal Character Set (UCS) သိမ်းဆည်းပုံ တို့ ဖြစ်သည်။ သိမ်းဆည်းမှု နေရာဆက်ပုံ (encoding maps) တွင် ယူနီကုဒ် စာခွက် မှ အစဉ်လိုက် တစ်ခုသော ပမာဏ အထိ ကို စာခွက်တန်ဖိုး (code value) ဟု သက်မှတ်သည်။ သိမ်းဆည်းပုံ အမည်တွင် နံပါတ်သည် UTF သိမ်းဆည်းပုံ တွင် စာခွက်တန်ဖိုး တစ်ခု၏ ဘစ် (bit) ပမာဏ ပါဝင်မှု ကို ဖော်ပြပြီး UCS သိမ်းဆည်းပုံ တွင် စာခွက်တန်ဖိုး တစ်ခု၏ ဗိုက် (byte) ပမာန ပါဝင်မှု ကို ဖော်ပြသည်။

UTF သိမ်းဆည်းပုံများမှာ -

  • UTF-1 — အသုံးမပြုတော့သော UTF-8 အရင်, maximizes compatibility with ISO 2022, no longer part of The Unicode Standard
  • UTF-7 — လူသုံးများသော 7-bit သိမ်းဆည်းပုံ
  • UTF-8 — 8-bit သုံး၍ ပမာနခွဲပေါင်းစုံ သိမ်းဆည်းပုံ ဖြင့် ASCII နှင် ကိုက်ညီသော၊ မြန်မာ ယူနီကုဒ် သုံးသော
  • UTF-EBCDIC — 8-bit သုံး၍ ပမာနခွဲပေါင်းစုံ သိမ်းဆည်းပုံ ဖြင့် EBCDIC နှင့် ကိုက်ညီသော EBCDIC (ယူနီကုဒ်စံ မဟုတ်)
  • UTF-16 — 16-bit သုံး၍ ပမာဏခွဲပေါင်းစုံ သိမ်းဆည်းပုံ
  • UTF-32 — 16-bit သုံး၍ ပမာဏတူ သိမ်းဆည်းပုံ

UTF-8 သည် စာခွက် တစ်ခုကို ၁ မှ ၄ ဗိုက် အထိ ယူနိုင် သောကြောင့် ASCII နှင့် ကိုက်ညီမှုရှိပြီး ကျစ်လျစ် သဖြင် သုံးစွဲသူ့စံ (de facto standard) ဖြစ်လျက် ရှိသည်။ ယခုခေတ် Linux distribution များတွင် ထို သိမ်းဆည်းပုံ စနစ် ဖြင့်လာသည်က များသည်။

အဆင်သင့် (ready-made) နှင့် ပေါင်းစပ် စာလုံး

ယူနီကုဒ်တွင် စာလုံး ပုံပြောင်းရန် နည်းစနစ်ပါရှိသဖြင် စာလုံးပုံ များစွာကို ပါသည်ထက် များတိုးချဲ့၍ ဖော်ပြနိုင်သည်။ ထိုနည်းစဉ် အသုံးပြုမှုကို စာလုံးကို သင်္ကေတဖြင့် ပေါင်းခြင်း (combining diacritical marks) ဟုခေါ်သည်။ ထိုစာလုံးတို့ကို မူရင်း စာလုံး နောက်တွင် သင်္ကေတဖြင့် လိုက်သည် (ဥပမာ မြန်မာ ယူနီကုဒ် တွင် စာလုံးဆင့်များ)။ ယူနီကုဒ်တွင် အသုံးများလျှင် ပေါင်းစပ်ပြီးစာလုံးများ လည်းပါရှိသည်။ ထိုကြောင့် ရှိပြီး စနစ် များ နှင့် ပြောင်းလဲ သုံးစွဲရန် အဆင်ပြေစေသည်။ ဥပမာအားဖြင် é ကို ယူနီကုဒ် U+0065 (လက်တင်စာလုံး အသေး e) နှင် နောက်တွဲ U+0301 (ဆောင့်သံ) ပေါင်း၍ လည်းကောင်း တစ်လုံးတည်း U+00E9 သုံး၍ လည်းကောင်း ဖော်ပြနိုင်သည်။ ထို့ကြောင့် တစ်ခါတစ်ရံတွင် အသုံးပြုသူသည် မျိုးစုံ ရေးနိုင်သည်။ ထိုအကြောင်းကို ပေါင်းရန် ယူနီကုဒ်တွင် မူရင်း တူညီမှု (canonical equivalence) နည်းစဉ် ရှိသည်။

ပူးတွဲခြင်းများ (ligatures)

စာဘာသာ များစွာတို့တွင် တချို့သော စာလုံးများ ပေါင်းပြရန် အထူး စာပုံဖော်စနစ် လမ်းစဉ် (orthographic rule) ရှိသည်။ ထိုစာပုံဖော်စနစ် လမ်းစဉ် သည် အဆင့်မြင့် စာဘာသာ-ပုံဖော်စနစ် (special script-shaping) နည်းပညာ လိုအပ်အောင် အလွန်ပင် ရှုပ်ထွေးနိုင်သည်။ အဆင့်မြင့် စာဘာသာ-ပုံဖော်စနစ် များမှာ ၁၉၈၀ ခုက DecoType ပြုလုပ်သော အာရပ်ဘာသာ အတွက် Arabic Calligraphic Engine (ACE) စနစ်၊ Adobe နှင့် Microsoft တို့ ပြုလုပ်သော OpenType စနစ်၊ SIL International မှ Graphite စနစ် Apple မှ AAT စနစ် တို့ ဖြစ်ကြသည်။ မြန်မာ ဖောင့်များ ဖြစ်သော ပိတောက်ဖောင့် သည် Graphite စနစ်အား လည်းကောင်း၊ ပုရပိုက်ဖောင့် myanmar3 နှင့် ဇော်ဂျီဖောင့် OpenType စနစ်အား လည်းကောင်း သုံးသည်။ ဖောင့်ထဲတွင် operating system အား စာလုံးစဉ်များကို မည်သို့ ပုံဖော်ရမည်ကို ညွှန်ကြားချက်များ ပါရှိသည်။ ထို့အတွက် ရှင်းလင်းသော အဖြေမှာ နေရာမယူသော ပေါင်းစပ် သင်္ကေတ ကို ဘယ်ဖက် သို့မဟုတ် ညာဘက်သို့ ထား၍ ပြသရန် ဖြစ်သည်။ ပေါင်းစပ် သင်္ကေတ ကို ထိုသို့ထားခြင်းဖြင့် ရှေ့မှလာသော စာလုံးကို ပြသစေသော်လည်း မူရင်း စာလုံး၏ အကွာအဝေး နှင့် အမြင့်ကို မပြောင်းလဲနိုင်ပေ။ ထိုနည်းသည် အမှန် အထက်ဆင့်ခြင်းကို မရရှိနိုင်သော်လည်း တော်တော်လေး တုပနိုင်သည်။ မြန်မာ ယူနီကုဒ် သည်လည်း ထို အထက်ဆင့်ခြင်းနည်းကို အသုံးပြုထားသည်။ များသောအားဖြင့် ထိုနည်းစဉ်သည် အကွာအဝေး မပြောင်းသော ဖောင့် (monospaced font) များသာ ကောင်းစွာသုံးနိုင်ပြီး ခက်ခဲသောနည်းများ မရသည့်အခါ နောက်ဆုံးအဆင့် သုံးရန်ဖြစ်သည်။

Remove ads

ယူနီကုဒ် အသုံးပြုပုံ

ကွန်ပျူတာ လည်ပတ်ရေးစနစ်

ယူနီကုဒ်သည် အတွင်းပိုင်း လုပ်ဆောင်မှုများ နှင့် သိုလှောင်မှု (storage) အရေးပါလာသည်။ UCS-2 စနစ် သုံးသူများသည် UTF-16 စနစ် ပြောင်းသုံးကြသည်။ လူသိအများဆုံးသော Windows NT (နောက်များတွင် Windows 2000, Windows XP and Windows Vista ဖြစ်လာသည်) စနစ်တွင် ယူနီကုဒ် စာလုံး သိမ်းဆည်းမှုကို အပြည့်သုံးထားသည်။ Java နှင် .NET bytecode စနစ်၊ Mac OS X နှင် KDE တို့လည်း ယူနီကုဒ် ကို ထဲထဲဝင်ဝင် သုံးထားသည်။

UTF-8 စနစ်သည် Unix-like operating system များ အတွက် အဓိက သိုလှောင်မှု စနစ်ဖြစ်သည်။ အကြောင်းတစ်ခုမှာ extended ASCII ကို အလွယ်တကူ အစားထိုးနိုင်သော ကြောင့်ဖြစ်သည်။

ယူနီကုဒ်ကို ဘာသာစုံ စာလုံးဖော်စက် (text-rendering engine) များဖြင့် ပုံဖော်ရာတွင် Microsoft Windows တွင် Uniscribe သုံး၍လည်းကောင်း၊ Mac OS X တွင် ATSUI သုံး၍လည်းကောင်း၊ GTK+ (GNOME desktop) ကို Pango သုံး၍လည်းကောင်း ပုံဖော်ကြသည်။

စာရိုက်နည်း

ကီးဘုတ် လက်ကွက် စာလုံးအားလုံး မပါနိုင်သောကြောင့် စက်မောင်းစနစ် (operating system) တို့တွင် အခြားနည်းဖြင့် ရိုက်သွင်းရန် လိုအပ်သည်။ စက်စနစ် များစွာ တို့သည် တိုက်ရိုက် ယူနီကုဒ် စာရိုက်နည်း ဖြင့် မည်သည့် ယူနီကုဒ် စာလုံးကိုမဆို ရိုက်နိုင်သည်။

ISO 14755 သည် ယူနီကုဒ် စာလုံးများ မည်သို့ ရိုက်သွင်းရမည်ကို စာရိုက်နည်း စနစ်စဉ်များနှင့် သက်မှတ်သည်။ ထိုတွင် အစ အဆုံး နှင့် အလယ်တွင် စာခွက်၏ hex တန်ဖိုး ထား၍ အခြေ ရိုက်သွင်းခြင်း သည် နည်းတစ်ခုဖြစ်သည်။ နောက်နည်းတစ်ခုမှာ မြင်ကွင်းတွင် ဇယားပုံဖော်၍ သွင်းခြင်းဖြစ်သည်။

Remove ads

ပြဿနာများ

ဒဿနနှင့် ပြည့်စုံမှု ဝေဖန်ချက်

ဟန်ပေါင်းခြင်း (Han unification) (အရှေ့ အာရှ ဘာသာ သုံးခု အနက် မည်သည့် စနစ်ကို ရွေးချယ်ခြင်း) မှာ ယူနီကုဒ်၏ အဓိက ပြောဆိုရာ ဝေဖန်ချက် ဖြစ်သည်။ ထိုဒေသ သုံးခုလုံးတွင် ယူနီကုဒ် လမ်းစဉ် အကြံပြု Ideographic Rapporteur Group အဖြစ် ရပ်တည်သော ပညာရှင် အမြောက်အမြားရှိသောလဲ ပြဿနာ မဆုံးနိုင်ပေ။ ယူနီကုဒ်သည် ရှေး နှင့် ပုံပြောင်း ခန်းဂျီးစာ မပါဝင်မှုအတွက် ရှုံ့ချကြသည်။ ဝေဖန်ချက်မှာ ဂျပန်၏ ရုံးသုံး ပညာရေးသုံး ဖြစ်သော်လည်း ရှေးဂျပန်စာ နှင့် အသုံးနည်း ဂျပန် နာမည် များကို ပြုလုပ်ဖော်ပြရန် ခက်ခဲသည်။ ထို့အပြင် ထိုစာလုံးများမှာ အရင်စနစ်များတွင်လည်း ပါရှိပြီးဖြစ်သည်။ ဂျပန်၊ တရုတ်၊ ကိုရီးယား စာလုံးပုံစံ မတူခြင်းကြောင့် ဟန်ပေါင်းခြင်း ကို သဘောမတူဖြစ်ပြီး အခြား နည်းခွဲ သိမ်းဆည်းပုံ အသစ်ပြုလုပ်ရန် မျိုးစုံ ကြိုးစားခဲ့ကြပြီး ဖြစ်သည်။ ထိုအထဲတွင် TRON နှင့် UTF-2000 တို့ဖြစ်သည်။ အရင် ယူနီကုဒ်တွင် အသုံးများသော ဟန်စာလုံး ၂၁ ၀၀၀ ခန့်သာပါရှိသော်လည်း ယခု ယူနီကုဒ်တွင် ဟန်စာလုံး ၇၀ ၀၀၀ ထက်မကပါပြီး ဂျပန်၊ တရုတ်၊ ကိုရီးယား နှင့် ဗွီရပ်န် စာလုံးများ ဆက်လက် ထည့်သွင်းလျက်ရှိသည်။

ပေါင်းစပ် စာလုံးများ

စာလုံးဆင့်များ ဖော်ပြရာတွင် ပေါင်းစပ် သင်္ကေတပြ၍ စာလုံးများပေါင်းခြင်း သို့မဟုတ် တစ်လုံးတည်း လည်း ဖော်ပြနိုင်သည်။ ဥပမာ သံရှည် သင်္ကေတ နင့် သံဆောင့် သင်္ကေတ တို့ပေါင်းထားသော ḗ ကို သံရှည် သင်္ကေတ၊ သံဆောင့် သင်္ကေတ၊ e သင်္ကေတ ဖြင့်လည်းကောင်း ဖော်ပြနိုင်သောလည်း လက်တွေ့တွင် ပုံ မတူပေ။ ထိုပြဿနာများကို ပြေလည်ရန် အသင့်ပေါင်းပြီး စာလုံးပုံ သုံး၍ရနိုင်သည်။ သို့သော် အသင့်ပေါင်းပြီး စာလုံးပုံ မရှိသော မြန်မာ ယူနီကုဒ် စာလုံးဆင့်များ ကိုမူ GraphiteOpenType သို့မဟုတ် AAT ကဲ့သို့ အဆင့်မြင့် စာလုံးပုံဖော်နည်းများ အသုံးပြုရန်လို့အပ်သည်။

Remove ads

ကိုးကား

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads