Khas (blok Unicode)
From Wikipedia, the free encyclopedia
Remove ads
Khas ialah blok Unicode pendek yang diperuntukkan di hujung Satah Multibahasa Asas, pada U+FFF0–FFFF, mengandungi titik kod berikut:
- U+FFF9 PENANDA ANOTASI ANTARA BARIS, menandakan permulaan teks beranotasi
- U+FFFA PEMISAH ANOTASI ANTARA BARIS, menandakan permulaan aksara penjelasan
- U+FFFB PENAMAT ANOTASI ANTARA BARIS, menandakan akhir blok anotasi
- U+FFFC  AKSARA PENGGANTI OBJEK, pemegang tempat dalam teks untuk objek lain yang tidak ditentukan
- U+FFFD � AKSARA PENGGANTI digunakan untuk menggantikan aksara yang tidak dikenali atau tidak boleh dipaparkan
- U+FFFE <noncharacter-FFFE> bukan aksara
- U+FFFF <noncharacter-FFFF> bukan aksara
Remove ads
U+FFFE <noncharacter-FFFE> dan U+FFFF <noncharacter-FFFF> ialah bukan-aksara, bermakna ia dikhaskan tetapi tidak menyebabkan teks Unicode yang tidak terbentuk dengan betul. Versi piawaian Unicode dari 3.1.0 hingga 6.3.0 menyatakan bahawa aksara ini tidak boleh ditukar, menyebabkan beberapa aplikasi menggunakannya untuk meneka pengekodan teks. Namun, Pembetulan #9 kemudian menetapkan bahawa bukan-aksara tidak dilarang dan kaedah pemeriksaan pengekodan ini tidak betul.[3] Contoh penggunaan dalaman U+FFFE ialah algoritma CLDR; algoritma Unicode lanjutan ini memetakan bukan-aksara kepada berat utama yang minimum dan unik.[4]
Aksara Unicode U+FEFF JARAK TANPA PUTUS BERKELEBARAN SIFAR boleh dimasukkan pada permulaan teks Unicode untuk menunjukkan keendianan: program yang membaca teks ini dan menemui 0xFFFE akan tahu bahawa ia perlu menukar urutan bait untuk aksara berikutnya.
Nama bloknya dalam Unicode 1.0 ialah Khas.[5]
Remove ads
Aksara pengganti

Aksara pengganti � (selalunya dipaparkan sebagai rombus hitam dengan tanda soal putih) ialah simbol dalam piawaian Unicode pada titik kod U+FFFD dalam jadual Khas. Ia digunakan untuk menunjukkan masalah apabila sistem tidak dapat memaparkan aliran data sebagai simbol yang betul.[6]
Sebagai contoh, fail teks dalam ISO 8859-1 mengandungi perkataan Jerman für mempunyai bait 0x66 0xFC 0x72
. Jika fail ini dibuka dengan penyunting teks yang menganggap input sebagai UTF-8, bait pertama dan ketiga adalah pengekodan UTF-8 yang sah untuk ASCII, tetapi bait kedua (0xFC
) tidak sah dalam UTF-8. Penyunting teks boleh menggantikan bait ini dengan aksara pengganti untuk menghasilkan rentetan titik kod Unicode yang sah, jadi pengguna melihat "f�r".
Penyunting teks yang kurang baik mungkin menulis aksara pengganti apabila pengguna menyimpan fail; data dalam fail akan menjadi 0x66 0xEF 0xBF 0xBD 0x72
. Jika fail dibuka semula menggunakan ISO 8859-1, ia akan memaparkan "f�r" (dipanggil mojibake). Oleh sebab penggantian ini adalah sama untuk semua ralat, aksara asal tidak boleh dipulihkan. Reka bentuk yang lebih baik (tetapi lebih sukar untuk diimplementasikan) ialah menyimpan bait-bait asal termasuk sebarang ralat, dan hanya menukar kepada pengganti ketika memaparkan teks. Ini akan membolehkan editor teks menyimpan turutan bait asal, sambil masih menunjukkan petunjuk ralat kepada pengguna.
Pada suatu masa, aksara pengganti sering digunakan apabila tiada glif tersedia dalam fon untuk aksara tersebut. Namun, kebanyakan sistem moden menggunakan aksara {{tt|[[.notdef]]}} sesuatu fon, yang biasanya kotak kosong, atau "?" atau "X" dalam kotak[7], kadangkala dipanggil "tofu". Tiada titik kod Unicode untuk simbol ini.
Kini, aksara pengganti hanya dilihat untuk ralat pengekodan. Sesetengah perisian menukar bait UTF-8 tidak sah kepada aksara sepadan dalam Windows-1252 (kerana itulah sumber yang paling biasa untuk ralat-ralat ini), jadi aksara pengganti tidak pernah kelihatan.
Remove ads
Carta Unicode
Templat:Unicode chart Specials
Sejarah
Dokumen berkaitan Unicode berikut merekodkan tujuan dan proses mentakrifkan aksara tertentu dalam blok Khas:
Remove ads
Lihat juga
- Aksara kawalan Unicode
Rujukan
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads