トップQs
タイムライン
チャット
視点

特殊用途文字 (Unicodeのブロック)

ウィキペディアから

Remove ads

特殊用途文字(とくしゅようともじ 英語: Specials)は、UnicodeにおいてU + FFF0 〜 FFFFの基本多言語面の最後に割り当てられる短いブロックである。 これらの16個のコードポイントのうち、5個がUnicode 3.0以降に割り当てられている。

概要 Specials, 範囲 ...

概要

要約
視点
U+FFF9 interlinear annotation anchor
注釈付きテキストの開始を示す。
U+FFFA interlinear annotation separator
注釈文字の開始
U+FFFB interlinear annotation terminator
注釈ブロックの終わり
U+FFFC object replacement character
複合ドキュメントなど、指定されていない別のオブジェクトのテキスト内を置換する記号
U+FFFD replacement character
不明な文字、認識できない文字、表現できない文字を置き換えるために使用される
U+FFFE <noncharacter-FFFE>
非文字
U+FFFF <noncharacter-FFFF>
非文字

FFFEとFFFFは通常の意味で割り当てられていないが、Unicode文字ではないことが保証されている。これらはテキストの符号化を推測するために使用できる。これらの文字を含むテキストはすべて、正しく符号化されたUnicodeテキストではないとされる。Unicodeの U+FEFF byte order mark文字をUnicodeテキストの先頭に挿入してエンディアンを示すことができる。そのようなテキストを読み取り、0xFFFEに遭遇したプログラムは、次のすべての文字の符号の順序を切り替える必要があることを認識する。

Remove ads
Thumb
置換文字

�(多くの場合、白い疑問符の付いた黒い菱形または空の四角)は、 Unicode規格のSpecialsにおいてコードポイントU + FFFDに割り当てられている記号であり、システムがデータ内の文字列を正しいシンボルにレンダリングできない場合の問題を示すために使用される。通常はデータが無効であるか、どの文字とも一致しない場合に表示される。

Remove ads

仮に、UTF-8での入力を想定したテキストエディタで、ISO-8859-1エンコード( 0x66 0xFC 0x72 )でドイツ語の単語 "für"を含むテキストファイルを開いたとする。最初と最後のバイトはASCIIにおいて有効なUTF-8エンコードであるが、中間のバイト( 0xFC )はUTF-8で有効なバイトではない。したがって、テキストエディターはこのバイトを置換文字記号に置き換えて、有効なUnicode コードポイントの文字列を生成できる。このときf�rと表示される。さらに、この状態でファイルの保存を行ったとき、正しく実装されていないテキストエディタにおいては、この置換文字符号のコードポイントが(UTF-8形式で)保存される可能性がある。このときテキストファイルのデータは0x66 0xEF 0xBF 0xBD 0x72となり、ISO-8859-1では「fï¿1/2r」として表示される(文字化けを参照)。置換はすべてのエラーで同じであるため、元の文字を復元することはできない。

文字コード表

Specials[1][2][3]
Official Unicode Consortium code chart (PDF)
 0123456789ABCDEF
U+FFFx  IA 
A
 IA 
S
 IA 
T
備考
1.^Unicode バージョン 13.0 現在
2.^灰色のエリアはコードポイントが割り当てられていないことを示す。
3.^黒のエリアは非文字(Unicode規準において文字コードが割り当てられないことが保証されているコードポイント)であることを示す。

歴史

要約
視点

以下に示す文書群は、Specialsブロックに特定の文字を定義する目的と過程を示したものである。

さらに見る バージョン, コードポイント ...
Remove ads

参照

参考文献

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads