トップQs
タイムライン
チャット
視点

基本多言語面

ISO/IEC 10646およびUnicodeの字面の一つ ウィキペディアから

Remove ads

基本多言語面(きほんたげんごめん、: Basic Multilingual Plane, BMP)は、ISO/IEC 10646の第0群第0およびUnicodeの第0面。最初の65536の符号位置である000016~FFFF16からなる。

最もよく使う、基本的な文字・記号のほとんどが含まれる。

UCS-2は、BMPのみからなる。また、Unicode 3.0までのUnicodeは、BMPのみからなっていた。

符号化

BMPの符号位置は、UTF-16UTF-8では、他の面より少ないオクテットバイト)数で符号化される。

  • UTF-8では、1〜3オクテットで符号化される。
  • UTF-16では、2オクテットで符号化される。サロゲートペア(代用対)は必要がないため使われない。
  • UTF-32では、他の面と同様、4オクテットで符号化される。

歴史

BMPは、本来、1990年に4バイト文字符号化方式 (CCS) として策定されたDIS 10646の用語だった。DISはDraft International Standardの略で、ISOのドラフト(草稿)を意味する。DIS 10646は、UCS-4同様、文字を群、面、区、点の4バイトで符号化した。そのうち最初の面がBMPである。ただし、DIS 10646第1版はISO 2022準拠で、2016~7F16のみしか使えなかったため、BMPを始めとする各面は256×256 = 65536ではなく96×96 = 9216符号位置しか持たなかった。また、BMPは最初の面と言っても、第0面ではなく第2016群第2016面だった。

一方、DIS 10646とは別に、Unicodeが2バイトCCSとして民間で開発されていた。UnicodeはISO 2022非準拠で、256×256の1面からなっていた。

1991年、DIS 10646第1版は否決され、Unicodeとの一本化が決定された。BMPは、Unicodeと完全な互換性を持つことに決まった。ISO 2022準拠の制約が外され、1面がUnicodeと同じ256×256 = 65536符号位置を持つようになった。また、BMPは第0群第0面に移動された。こうして生まれたのがDIS 10646第2版で、これを元に、1993年にISO/IEC 10646が生まれた。

Remove ads

配置領域

BMPは、同種の用字をまとめた、いくつかの配置領域に分かれている。ただし、相次ぐ追加・変更により、配置領域による区分の意味は薄れている。(例えば、ラテン文字は1FFF16以下の領域が一杯になってきたので、かつて記号用の領域とされていた2xxx16の領域やCJK用であったAxxx16の領域を使用するようになった。また、互換文字の領域にあるものでも、他の領域に同じような文字がないため、互換文字としては扱わないものもある。例えばU+FA1FやU+FA24など。)

さらに見る 開始, 終了 ...

当初基本多言語面は以下のような4つの「領域」に分けられていた[1]

  • 0000 33FFをアルファベット及び音節文字の用字並びに種々の記号のために使うA領域
  • 3400 9FFFを中国、日本及び韓国の統合された漢字のために使うI領域
  • A000 DFFFを将来の標準化のために使うO領域
  • E000 FFFDを私用文字、互換文字と特殊文字の為に使うR領域

しかしながら上記のように例外的な配置が増えてきたため現在基本多言語面で「領域」として定められているのは以下の二つだけである[2]

  • D800 DFFFを代用符号位置に使用するS領域
  • E000 F8FFを私用領域

収録されている用字系

要約
視点

記号類、Unicode範囲は拡張や補助等を省略。

さらに見る 英語表記, 日本語表記 ...
Remove ads

参考資料

用語の日本語表記は原則として次にならった。Unicode Terminology English - Japanese”. Unicode, Inc. 2010年1月1日閲覧。

関連項目

脚注

Loading content...

外部リンク

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads