Unicode - Wikiwand

「ユニコード」はこの項目へ転送されています。

声優ユニット「UniChØrd」については「D4DJ#UniChØrd（ユニコード）」をご覧ください。
韓国のアイドルグループについては「UNICODE (音楽グループ)」をご覧ください。

Unicode（ユニコード）は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合（文字セット）が単一の大規模文字セットであること（「Uni」という名はそれに由来する）などが特徴である。

この項目には、一部のコンピュータや閲覧ソフトで表示できない文字が含まれています（詳細）。

従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった^[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日本語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても本質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である^[1]。1980年代に、Starワークステーションの日本語化（J-Star）などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、ヒューレット・パッカード、ジャストシステムなどが参加するユニコードコンソーシアムにより作られた。国際規格のISO/IEC 10646とUnicode規格は同じ文字コード表になるように協調して策定されている^[2]。

Remove ads

概要

Unicodeは世界で使われる全ての文字を共通の文字集合にて利用できるようにしようという考えで作られ、Unix、Windows、macOS、Plan 9^{[注釈 1]}などの様々なオペレーティングシステムでサポートされている。Javaや.NETのようなプログラミング環境でも標準的にサポートされている。現代の文字だけでなく古代の文字や歴史的な文字、数学記号、絵文字なども含む^[3]。

Unicode以前の文字コードとの相互運用性もある程度考慮されており、歴史上・実用上の識別が求められる場合には互換領域がとられ、元のコード→Unicode→元のコードというような変換（ラウンドトリップ変換）において、元通りに戻るよう配慮されている文字もある。しかし、正規のJIS X 0208の範囲内であればトラブルは少ないが、複数の文字集合が混在していたり、文字集合の亜種ごとにマッピング（対応づけ）が異なる文字（機種依存文字）を含んでいたりする場合^{[注釈 2]}、変換テーブルによるマッピングが不可逆変換となり文字化けを起こすことがある。

Remove ads

Unicode文字符号化モデル

要約

視点

文字コードは、Unicode文字符号化モデル^[4]によると以下の4段階に分けられる：

抽象文字集合 (ACR): 符号化の対象とする順序のない文字の集合。
符号化文字集合 (CCS): 抽象文字集合を非負整数に対応させたもの。この非負整数の範囲を符号空間、各値を符号位置 (コードポイント) といい、抽象文字は対応後、符号化文字となる^[5]。抽象文字は複数の符号化文字に対応されることもある^[6]。
文字符号化形式 (CEF): 符号化文字集合の非負整数を符号単位列に変換する方法。文字符号化形式はコンピュータ中に実際にデータとして文字を表現することを可能にする。
文字符号化方式 (CES): 符号単位列をバイト列に直列化する方法。符号単位が8ビットより大きい場合はエンディアンが関係する。

その後、バイト列を、gzipなどで圧縮したり、7ビット伝送路に通すためにBase64やQuoted-printableなどで変換したりすることがあるが、これらは文字コードの管轄範囲外である。

Remove ads

文字集合

この項目では下付き文字を扱っています。閲覧環境によっては、適切に表示されていない場合があります。

Unicodeの文字集合の符号空間は0 - 10FFFF₁₆で111万4,112の符号位置がある^[7]。Unicode 16.0（2024年9月10日公表）では15万4,998個1 (13.9%) の文字^{[注釈 3]}が割り当てられ、65個を制御文字に使い、15万4,537符号位置 (13.8%) を私用文字として確保している。また、2,048文字分をUTF-16のための代用符号位置に使用しており、加えて66の特別な符号位置は使われない。残りの80万2,463符号位置 (72%) は未使用である^[8]。

文字を特定する場合にはUnicode符号位置や一意につけられた名前が使われる。例えば、アルファベット小文字の「a」はU+0061 (LATIN SMALL LETTER A)、八分音符「♪」はU+266A (EIGHTH NOTE) である。Unicode符号位置を文章中などに記す場合は "U+" の後に十六進法で符号位置を4桁から6桁続けることで表す。また、符号空間のうち代用符号位置を除く符号位置をUnicodeスカラ値という^[9]。

収録されている文字は、各国で標準として規定されている文字集合や実際に使用されている文字を持ち寄り、委員会により取捨選択されている。日本の文字については当初よりJIS X 0201、JIS X 0208、JIS X 0212を、Unicode 3.1からはJIS X 0213の内容も収録している。

また収録において、元の各文字集合内で分離されている文字は尊重するが、異なる文字集合に同一の文字が収録されているとみなされるものは、同じ符号位置に割り当てる方針を取っている。この際に集合が膨大であるという理由で、漢字について、中国、日本、韓国の各規格の漢字を統合しCJK統合漢字としたことは大きな議論となった。

現在では独自創作の絵文字の追加等、当初の目的である「各国・各社の文字コードの統合」から外れた動きも進んでいる。

Unicodeに収録されている文字については、「ブロックの一覧」を参照。

文字符号化形式

この項目には、一部のコンピュータや閲覧ソフトで表示できない文字（「AΩ語」の次の文字は笑顔を示す顔文字）が含まれています（詳細）。

Unicodeでは文字符号化形式としてUTF-8、UTF-16、UTF-32の3種類が定められている。

UTF-8は1符号化文字を1〜4符号単位で表す可変幅文字符号化形式で、1符号単位は8ビットである。

UTF-16は1符号化文字を1〜2符号単位で表す可変幅文字符号化形式で、1符号単位は16ビットである。基本多言語面の文字を符号単位一つで、その他の文字をサロゲートペア（代用対）という仕組みを使い符号単位二つで表現する。

UTF-32は1符号化文字を1符号単位で表す固定幅文字符号化形式で、1符号単位は32ビットである。ただし、Unicodeの符号空間がU+10FFFFまでであるため、実際に使われるのは21ビットまでである。

さらに見る UTF-8, UTF-16 ...

各文字符号化形式の符号化例
	00	01	02	03	04	05	06	07	08	09	0A	0B	0C	0D	0E	0F
UTF-8	A	Ω	語	😊
41	CE	A9	E8	AA	9E	F0	9F	98	8A
UTF-16	A	Ω	語	😊
0041	03A9	8A9E	D83D	DE0A
UTF-32	A	Ω	語	😊
00000041	000003A9	00008A9E	0001F60A

Remove ads

文字符号化方式

要約

視点

さらに見る 文字符号化形式 (CEF), 文字符号化方式 (CES) ...

文字符号化形式 (CEF)	文字符号化方式 (CES)
UTF-8	UTF-8
UTF-16	UTF-16
UTF-16BE
UTF-16LE
UTF-32	UTF-32
UTF-32BE
UTF-32LE

Unicodeでは文字符号化方式としてUTF-8、UTF-16、UTF-16BE、UTF-16LE、UTF-32、UTF-32BE、UTF-32LEの7種類が定められている。それぞれの符号化形式に対応する符号化方式は表の通り。

文字符号化形式との違いは、文字符号化形式がプログラム内部で文字を扱う場合に符号なし整数として文字を表現する方法なのに対し、文字符号化方式は入出力時にバイト列として表現する方法である。UTF-8は符号単位が8ビットであるため区別する意味はない。

さらに見る 文字符号化方式 (CES), エンディアン ...

文字符号化方式 (CES)	エンディアン	BOMの付与
UTF-8	N/A	可
UTF-16	ビッグ/リトル	可
UTF-16BE	ビッグエンディアン	不可
UTF-16LE	リトルエンディアン	不可
UTF-32	ビッグ/リトル	可
UTF-32BE	ビッグエンディアン	不可
UTF-32LE	リトルエンディアン	不可

UTF-8

→詳細は「UTF-8」を参照

可変長（1-4バイト）の8ビット符号単位で表現する文字符号化方式。ASCIIに対して上位互換となっており、文字の境界が明確である、UTF-16符号化方式やUTF-32符号化方式との変換・逆変換に際して乗除算などの高負荷処理が必要ない、などの特長を持ち、インターネットではもっとも一般的に利用されている。; なお、UTF-8はもともと8ビットを符号単位とするためバイト順マーク（BOM；後述）は必要ないが、UTF-8であることが識別できるよう、データストリームの先頭に EF BB BF（U+FEFFのUTF-8での表現）の3バイトが付与されることがある。UTF-8のBOMはバイト順を表すものではなく、UTF-16符号化方式等における「真の意味でのBOM」と同じコードポイントを利用しているがゆえに慣用的にこう呼ばれているに過ぎない。UTF-8でのBOMの使用は非推奨^[10]。
UTF-16

→詳細は「UTF-16」を参照

UTF-16符号化方式では、通常はファイルの先頭にバイト順マーク (BOM) が付与される。BOMとは、通信やファイルの読み書き等、8ビット単位の処理でバイト順を識別するための印であり、データストリームの先頭に付与される。値はU+FEFF。システムが読み込んだ先頭2バイトが FF FEならリトルエンディアン、FE FFならビッグエンディアンとして後に続く文書を処理する。; RFC 2781 ではBOMが付いていないUTF-16文書はビッグエンディアンとして解釈することになっている。Microsoft Windowsのメモ帳で作成した「Unicodeテキスト」はBOMが付与されるようになっている。ビッグエンディアンの符号化方式をUTF-16BE、リトルエンディアンの符号化方式をUTF-16LEとして区別することもある。プロトコルもしくはアプリケーションの設定などの手段で符号化方式にUTF-16BEやUTF-16LEを指定している場合にはBOMを付与することは許容されない。Windows上の文書における「Unicodeテキスト」は特に明記のない場合、リトルエンディアンのUTF-16符号化方式のことを指す。TCP/IPネットワークでは、プロトコルヘッダやMIME等の手段で符号化方式が指定されずBOMも付与されない場合、ビッグエンディアンとして扱うと決められている。
UTF-32

→詳細は「UTF-32」を参照

UTF-32符号化方式でもUTF-16符号化方式と同じく、ビッグエンディアンとリトルエンディアンが存在し、それぞれUTF-32BE、UTF-32LEと呼ばれる。プロトコルもしくはアプリケーションの設定などの手段で符号化方式にUTF-32BEやUTF-32LEを指定している場合にはBOMを付与することは許容されない。

単純な符号化方式であるが、テキストファイルなどではファイルのサイズが大きくなる（すべてBMPの文字からなる文章の場合はUTF-16符号化方式の2倍、すべてASCII文字の場合はASCII/UTF-8の4倍のサイズとなる）ため、ストレージ用として使われることは稀である。そのためか、Microsoft Officeでの「エンコードされたテキストファイル」の読み書きでは、Office 2016 でもいまだに符号化方式には対応していない。フリーウェア・シェアウェアのテキストエディタのうち多数の符号化方式に対応しているものでも、この符号化方式には対応していないものが存在する。

ただし、すべてのUnicode文字を処理する場合には、すべての文字を単一の符号単位で表現したほうが処理に適するため、内部の処理ではUTF-32符号化形式（あるいはUCS-4）で扱うこともある。実例として、Linux 上のC言語環境では wchar_t は32ビット整数型である。

UTF-16符号化方式などと同様にUTF-32符号化方式にもBOMがあり、データストリームの先頭に付される。先頭の4バイトがFF FE 00 00ならリトルエンディアン、00 00 FE FFならビッグエンディアンになる。UTF-16のリトルエンディアンとUTF-32のリトルエンディアンは最初の2バイトが等しいため、4バイトまで読んで判断する必要がある。

さらに見る UTF-8, UTF-16BE ...

各文字符号化方式の符号化例
UTF-8	A	Ω	語	😊
41	CE	A9	E8	AA	9E	F0	9F	98	8A
UTF-16BE	A	Ω	語	😊
00	41	03	A9	8A	9E	D8	3D	DE	0A
UTF-16LE	A	Ω	語	😊
41	00	A9	03	9E	8A	3D	D8	0A	DE
UTF-32BE	A	Ω	語	😊
00	00	00	41	00	00	03	A9	00	00	8A	9E	00	01	F6	0A
UTF-32LE	A	Ω	語	😊
41	00	00	00	A9	03	00	00	9E	8A	00	00	0A	F6	01	00

その他

UTF-7

→詳細は「UTF-7」を参照

UTF-16で表したUnicodeをBase64で変換して表す符号化方式。ただし、ASCIIのアルファベット範囲等についてはBase64に変換しない等、特殊な符号化方式を行う。RFC 2152で定められており、Unicode規格及びUnicodeの関連規格には含まれない。かつてのSMTP等のように、7ビット単位でしかデータを扱えない通信方式を利用する場合を想定して作られている。ステートフルエンコーディングであり、運用上問題が多いため、現在ではこの方式は推奨されていない。Unicode文字を7ビット単位伝送通信にどうしても通さなければならない場合は、替わりにUTF-8をQuoted-printableあるいはBase64で変換するなどの方式が好ましい。

以下はエイプリルフールに公開されたジョークRFCである (RFC 4042)。UTF-9に関しては同名の規格が実際に検討されていた（ただし、内容は大きく異なる）が、ドラフト段階で破棄されているため重複にはならない。

UTF-9: 可変長の9ビット符号単位で表現する符号化方式。1バイトが8ビット（オクテット）ではなく9ビット（ノネット）であるような環境での利用を想定している。UTF-8と比較した場合、Latin-1領域が1バイト、CJK統合漢字領域が2バイトで表現できる特長があり、データ量が少なくなる。ワード長が9の倍数のコンピュータ（PDP-10やACOS-6など）であれば計算コストも低い。
UTF-18: Unicode符号位置を単一の18ビット符号単位で表現する符号化方式。UTF-8に対するUTF-16のようなものだが、RFC公開時点のUnicodeで文字が定義されていた4つの面（BMP、U+1xxxx、U+2xxxx、U+Exxxx）を余った2ビットで識別するため、代用符号位置は使わない。

以下はドラフト段階で破棄された規格案。

UTF-5: 国際化ドメイン名での利用を想定し、0-9、A-Vの32文字で表現する文字符号化方式。国際化ドメイン名にはPunycodeが採用されたため、利用されていない。

UTF-9: 可変長（1-5バイト）の8ビット符号単位で表現する文字符号化形式または文字符号化方式。ISO-8859-1に対して一部互換である。しかし、UTF-8が普及しつつあり、それと比べて欠点がいくつかあったため、破棄された。

Remove ads

拡張領域

要約

視点

1980年代の当初の構想では、Unicodeは16ビット固定長で、2¹⁶ = 6万5,536 個の符号位置に必要な全ての文字を収録する、というもくろみであった。しかし、Unicode 1.0公表後、拡張可能な空き領域2万字分を巡り、各国から文字追加要求が起こった。その内容は中国、日本、台湾、ベトナム、シンガポールの追加漢字約1万5千字、古ハングル約5千字、未登録言語の文字などである。このようにしてUnicodeの、16ビットの枠内に全世界の文字を収録するという計画は早々に破綻し、1996年のUnicode 2.0の時点で既に、文字集合の空間を16ビットから広げることが決まった。この時、それまでの16ビットを前提としてすでに設計されていたシステム（たとえばJavaのchar型や、Windows NT・Windows 95のAPI）をなるべくそのままにしたまま、広げられた空間にある符号位置を表現する方法として、サロゲートペアが定義された。

サロゲートペア

サロゲートペア（代用対）は16ビットUnicodeの領域1,024文字分を2つ使い（前半 U+D800 〜 U+DBFF、後半 U+DC00 〜 U+DFFF）、各々1個ずつからなるペアで1,024 × 1,024 = 1,048,576文字を表す。これはちょうど16面分であり、第1面〜第16面（U+010000 〜 U+10FFFF）の文字をこれで表すこととした。加えて第0面（基本多言語面）も使用可能なので、Unicodeには合計で 1,048,576 + 65,536 - 2,048 = 111万2,064文字分の空間が確保されたことになる。Unicodeの符号空間が10FFFF₁₆まで（サロゲート領域を除いて111万2,064文字）とされているのはUTF-16が表現可能な限界だからである。

サロゲートはUnicodeの符号位置の U+010000 〜 U+10FFFF の範囲を16ビットユニットのペア（2つ）で表現する集合で、最初の16ビットユニットを前半サロゲートもしくはハイサロゲート、二番目を後半サロゲートもしくはローサロゲートと称する。ハイサロゲートは U+D800 〜 U+DBFF の範囲、ローサロゲートは U+DC00 〜 U+DFFF の範囲である。

サロゲートペアはUTF-16でのみ使われ^[11]、UTF-8、UTF-32ではすべての符号位置を符号化できるためこのような特別な処理は必要ない。

コーディング

サロゲートのエンコーディングは、符号位置を $CP$ 、ハイサロゲートを $HSG$ 、ローサロゲートを $LSG$ とすると次の通りに計算する。

HSG=\mathrm {floor} \left({\frac {CP-10000_{16}}{400_{16}}}\right)+{\rm {D800}}_{16}

LSG=\left(CP-10000_{16}\right){\bmod {4}}00_{16}+{\rm {DC00}}_{16}

デコーディングは、

CP=10000_{16}+\left(HSG-{\rm {D800}}_{16}\right)\times 400_{16}+\left(LSG-{\rm {DC00}}_{16}\right)

である。

コード変換例

「𠮷^{[注釈 4]}」U+20BB7 のエンコードを考えてみる。

{\color {green}0010\ 0000\ 10}{\color {blue}11\ 1011\ 0111}_{2}\ ({\rm {20BB7}}_{16})

から

0001\ 0000\ 0000\ 0000\ 0000_{2}\ (10000_{16})

を引くと、結果は

{\color {green}0001\ 0000\ 10}{\color {blue}11\ 1011\ 0111}_{2}\ ({\rm {10BB7}}_{16})

となる。

これを上位10ビット値と下位10ビット値に分割する。

{\color {green}0001\ 0000\ 10}_{2}\ ({\color {green}0042}_{16}),\ \ {\color {blue}11\ 1011\ 0111}_{2}\ ({\rm {\color {blue}03B7}}_{16})

ハイ（上位）サロゲートを形成するために上位ビットに

{\rm {D800}}_{16}

を加える。

{\color {green}00\ 0100\ 0010}_{2}\ ({\color {green}0042}_{16})+1101\ 1000\ 0000\ 0000_{2}\ ({\rm {D800}}_{16})=1101\ 10{\color {green}00\ 0100\ 0010}_{2}({\rm {D842}}_{16})

ロー（下位）サロゲートを形成するために下位ビットに

{\rm {DC00}}_{16}

を加える。

{\color {blue}11\ 1011\ 0111}_{2}\ ({\rm {\color {blue}03B7}}_{16})+1101\ 1100\ 0000\ 0000_{2}\ ({\rm {DC00}}_{16})=1101\ 11{\color {blue}11\ 1011\ 0111}_{2}({\rm {DFB7}}_{16})

結果

{\rm {\color {green}D842}}_{16},\ {\rm {\color {blue}DFB7}}_{16}

(UTF-16 符号単位列)

{\rm {\color {green}D8}}_{16},\ {\rm {\color {green}42}}_{16},\ {\rm {\color {blue}DF}}_{16},\ {\rm {\color {blue}B7}}_{16}

(UTF-16BEでの符号化バイト列)

{\rm {\color {green}42}}_{16},\ {\rm {\color {green}D8}}_{16},\ {\rm {\color {blue}B7}}_{16},\ {\rm {\color {blue}DF}}_{16}

(UTF-16LEでの符号化バイト列)

次の表は、この文字変換と他をまとめたものである。色は、コードポイントからのビットがUTF-16バイトにどのように分配されるかを示した。なお、UTF-16エンコーディングプロセスによって追加された追加ビットは黒で示されている。

さらに見る 文字（符号位置）, 符号位置(2進数) ...

文字（符号位置）	符号位置(2進数)	UTF-16 符号単位列(2進数)	UTF-16 符号単位列	UTF-16BE 符号化バイト列	UTF-16LE 符号化バイト列
$	`U+0024`	`0000 0000 0010 0100`	`0000 0000 0010 0100`	`0024`	`00 24`	`24 00`
€^{[注釈 5]}	`U+20AC`	`0010 0000 1010 1100`	`0010 0000 1010 1100`	`20AC`	`20 AC`	`AC 20`
𠮷^{[注釈 4]}	`U+20BB7`	`0010 0000 1011 1011 0111`	`1101 1000 0100 0010 1101 1111 1011 0111`	`D842 DFB7`	`D8 42 DF B7`	`42 D8 B7 DF`
最大値	`U+10FFFF`	`1 0000 1111 1111 1111 1111`	`1101 1011 1111 1111 1101 1111 1111 1111`	`DBFF DFFF`	`DB FF DF FF`	`FF DB FF DF`

Remove ads

面

要約

視点

一つの面は6万5536個の符号位置がある。

さらに見る 面, 符号位置 ...

面	符号位置	英語での名称	略称	日本語での名称	収録されている主な文字
第0面	`U+0000 - U+FFFF`	Basic Multilingual Plane	BMP	基本多言語面	基本的な文字。
第1面	`U+10000 - U+1FFFF`	Supplementary Multilingual Plane	SMP	追加多言語面	古代文字や記号・絵文字類など。
第2面	`U+20000 - U+2FFFF`	Supplementary Ideographic Plane	SIP	追加漢字面	漢字専用領域。
第3面	`U+30000 - U+3FFFF`	Tertiary Ideographic Plane	TIP	第三漢字面	追加漢字面に入りきらなかった漢字。また、将来的には古代漢字や甲骨文字などが収録される予定^{[注釈 6]}。
第4面	`U+40000 - U+4FFFF`	未使用（将来どのような目的で使用するのかすら決まっていない）。
第5面	`U+50000 - U+5FFFF`
第6面	`U+60000 - U+6FFFF`
第7面	`U+70000 - U+7FFFF`
第8面	`U+80000 - U+8FFFF`
第9面	`U+90000 - U+9FFFF`
第10面	`U+A0000 - U+AFFFF`
第11面	`U+B0000 - U+BFFFF`
第12面	`U+C0000 - U+CFFFF`
第13面	`U+D0000 - U+DFFFF`
第14面	`U+E0000 - U+EFFFF`	Supplementary Special-purpose Plane	SSP	追加特殊用途面	制御コード専用領域。
第15面	`U+F0000 - U+FFFFF`	Private Use Plane	PUP	私用面	BMPの U+E000 - U+F8FF の領域の拡張。
第16面	`U+100000 - U+10FFFF`

日本では2000年にJIS X 0208を拡張する目的でJIS X 0213（いわゆるJIS第3・第4水準）が制定されたが、この際、新たに採用された文字でUnicodeになかったものの一部は、BMPに収録できず、第2面への収録となった（Unicodeが最終的にJIS X 0213への対応を完了したのは2002年である）。このため、JIS X 0213収録文字をUnicodeで完全にサポートするには、追加漢字面をサポートしたOS、フォント、アプリケーションが必要となる。Shift_JISなど、Unicodeにて規定されるもの以外のエンコーディングを利用する場合であっても、JIS X 0213に対応するフォントやアプリケーションが必要である。

常用漢字の2010年改定で追加された字のうち「𠮟」はU+20B9Fで、追加漢字面に含まれる。そのため、改定後の常用漢字完全サポートを謳う場合、Unicodeに対応していて更にこの拡張領域にも対応している必要があると言える。ただ、現状ではこの字は、JIS X 0208に含まれる（＝当然、Unicode策定当初からBMPに収録されている）異体字の「叱」(U+53F1) で代用されることが多い。

Remove ads

歴史

要約

視点

1984年、ISOの文字コード規格委員会 (ISO/TC 97/SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門の作業グループ (ISO/TC 97/SC 2/WG 2) を設置し、作業を始めていた。1980年代後半にはこの作業グループにおいてさまざまな提案が検討されている。1990年になって出来あがったISO/TC 97/SC 2/WG 2作成のISO 10646の初版ドラフト（DIS 10646#DIS 10646第1版）では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、WG 2は CJK-JRG (Joint Research Group) と呼ばれるグループを別途設置し、そこで引き続き検討することにした。

このような公的機関の動きとは別に、1987年頃からXeroxのJoe BeckerとLee Collinsは、後にUnicodeと呼ばれるようになる、世界中の文字を統一して扱える文字コードを開発していた。1989年9月には「Unicode Draft 1」が発表された。ここではその基本方針として、2オクテット（16ビット）固定長で全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。このドラフトは少しずつ改良を加えられながら1990年4月にUnicode Draft 2、同年12月Unicode Final Draftとなった。さらに1991年1月にはこのUnicode Final Draftに賛同する企業によって、ユニコードコンソーシアムが設立された。

1991年6月、ISO/IEC 10646による4オクテット固定長コードを主体としたドラフト「DIS 10646第1版」は、2オクテット固定長コードであるUnicodeとの一本化を求める各国により否決され、ISO 10646とUnicodeの一本化が図られることになった。また中国およびユニコードコンソーシアムの要請により、CJK-JRGにおいて、ISO 10646とUnicodeの一本化が図られることになった。CJK-JRGは各国の漢字コードに基づき独自の統合規準を定め、ISO 10646 / Unicode用の統合漢字コード表を作成することになった。CJK-JRGの会合は第1回が7月22日から24日にかけて東京で、第2回の会合が9月17日から19日にかけて北京で、第3回が11月25日から29日にかけて香港で開催された。これらの討議の結果、1991年末になって「ISO 10646＝Unicode」用の統合漢字コード表が Unified Repertoire and Ordering (URO) の第1版として完成した。

Unicodeの最初に印刷されたドキュメントであるUnicode 1.0は、統合漢字表の完成に先行して漢字部分を除いたUnicode 1.0, Vol.1が1991年10月に出版され、後に1992年になって漢字部分だけのUnicode 1.0, Vol.2が出版された。

1992年、CJK統合漢字URO第二版が完成し、これを取り込んだ（ただし、UROには若干の間違いが発見されており、それらの修正が行われている。）DIS 10646第2版が、5月30日の国際投票で可決された。

1993年5月1日「ISO/IEC 10646-1: 1993 Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and basic Multilingual Plane」が制定される。同年翌6月にUnicode 1.0は ISO/IEC 10646-1:1993にあわせた変更を行いUnicode 1.1となり、以後UnicodeとISO/IEC 10646とは歩調を合わせて改訂されていくことになる。

Unicodeのバージョン

Unicodeのバージョンは、メジャーバージョン (the major version)、マイナーバージョン (the minor version)、アップデートバージョン (the update version) の3つの部分から構成され、ピリオドでつなげて表示される^[12]。ただし、マイナーバージョン及びアップデートバージョンについては0の場合には省略して表示されることもある。メジャーバージョンはレパートリーの追加のような重要な変更が行われたときに改定される。Unicodeのドキュメントは書籍形態と電子版ドキュメント形態の両方で公表され、どちらもUnicodeについての正式なドキュメントであるとされている。新たなバージョンがリリースされたときは新たなドキュメントが公表されるが、書籍として刊行されるのはメジャーバージョンが改定された場合および重要なマイナーバージョンの改定があった場合のみである。書籍版のバージョン1.0は、2巻に分けて刊行され、統合漢字部分を除いた第1巻は1991年10月に、統合漢字部分の第2巻は1992年6月に刊行された。そのため第1巻のみのものをUnicode 1.0.0、第2巻を含めたものをUnicode 1.0.1と呼ぶことがある。

各バージョンとその特徴

Unicodeのそれぞれのバージョン番号とその制定年月日、収録文字数他の特徴は以下の通りである。

さらに見る 制定年月日, バージョン番号 ...

制定年月日	バージョン番号	収録文字数	概要	日本語における主要な追加文字
1991年10月	Unicode 1.0.0 ^[13]	7,161	初期バージョン、16ビットの文字コード	JIS X 0201
1992年6月	Unicode 1.0.1 ^[14]	28,359	CJK統合漢字を導入	JIS X 0208、JIS X 0212
1993年6月	Unicode 1.1.0 ^[15]	34,233	ISO/IEC 10646-1:1993にあわせ変更
1993年7月	Unicode 1.1.5 ^[16]
1996年7月	Unicode 2.0.0 ^[17]	38,950	ISO/IEC 10646-1:1993の追補Amd.1からAmd.7に対応。ハングルの大移動を行いUnicode1.xとの互換性を失う (Amd.5)、サロゲートペア（代用対）を導入し追加面を可能にして収容可能な文字を大幅に増やす、21ビット領域に拡張 (Amd.1)
1998年5月	Unicode 2.1.0 ^[18]	38,952	ユーロ記号と正誤表を追加
1998年5月	Unicode 2.1.2 ^[19]
1998年8月	Unicode 2.1.5 ^[20]
1998年10月	Unicode 2.1.8 ^[21]
1999年4月	Unicode 2.1.9 ^[22]
1999年9月	Unicode 3.0.0 ^[23]	49,259	ISO/IEC 10646-1:2000が発行されるまでの追補Amd.8からAmd.31の文字すべてに対応。CJK統合漢字拡張Aで漢字6582字を追加 (Amd.17)	JIS X 0213の一部（地名や人名などに用いられる漢字）
2000年8月	Unicode 3.0.1 ^[24]
2001年3月	Unicode 3.1.0 ^[25]	94,205	ISO/IEC 10646-2:2001に対応。BMP以外の拡張。CJK統合漢字拡張Bで漢字42711字を追加	JIS X 0213の一部（地名や人名などに用いられる漢字）
2001年8月	Unicode 3.1.1 ^[26]
2002年3月	Unicode 3.2.0 ^[27]	95,221	ISO/IEC 10646-1:2000の追補Amd.1に対応	JIS X 0213（正式対応）
2003年4月	Unicode 4.0.0 ^[28]	96,447	ISO/IEC 10646:2003に対応
2004年5月	Unicode 4.0.1 ^[29]
2005年3月31日	Unicode 4.1.0 ^[30]	97,720	ISO/IEC 10646:2003の追補Amd.1に対応
2006年7月14日	Unicode 5.0.0 ^[31]	99,089	ISO/IEC 10646:2003の追補Amd.2とシンド語（Amd.3に含まれる）に対応
2008年4月4日 ^[32]	Unicode 5.1.0	100,713	ISO/IEC 10646:2003の追補Amd.3とAmd.4に対応。異体字セレクタを漢字に対して使い始める ^[33]	麻雀牌、割り算の筆算（長除法）の記号、電話機の星印、Adobe-Japan1-6の漢字字形 ^[34]
2009年10月1日	Unicode 5.2.0 ^[35]	107,361	ISO/IEC 10646:2003の追補Amd.6までに対応	ARIB外字
2010年10月11日	Unicode 6.0.0 ^[36]	109,449	ISO/IEC 10646:2010	携帯電話の絵文字
2012年1月31日	Unicode 6.1.0 ^[37]	110,181	ISO/IEC 10646:2012
2012年9月26日	Unicode 6.2.0 ^[38]	110,182	新トルコリラの通貨記号の追加など
2013年9月30日	Unicode 6.3.0 ^[39]	110,187
2014年6月16日	Unicode 7.0.0 ^[40]	113,021	ISO/IEC 10646:2012の追補Amd.1とAmd.2に対応。ルーブル、アゼルバイジャン・マナトの通貨記号、北米・中国・インド・アフリカの言語のための歴史的なスクリプトの追加。	約250字の絵文字の追加。
2015年6月17日	Unicode 8.0.0 ^[41]	120,737	ISO/IEC 10646:2014の追補Amd.1に対応。	U+301C WAVE DASHの修正（後述）
2016年6月21日	Unicode 9.0.0 ^[42]	128,172	ISO/IEC 10646:2014の追補Amd.2に対応。	91個の絵文字の追加、4KTV放送用シンボル19個の追加
2017年6月20日	Unicode 10.0.0 ^[43]	136,690	ISO/IEC 10646:2017	変体仮名285文字追加
2018年6月5日	Unicode 11.0.0 ^[44]	137,374	ISO/IEC 10646:2017の追補Amd.1に対応
2019年3月5日	Unicode 12.0.0 ^[45]	137,928	ISO/IEC 10646:2017の追補Amd.1とAmd.2に対応	小文字の「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」追加
2019年5月7日	Unicode 12.1.0 ^[46]	137,929		「㋿」（日本の元号「令和」の合字）追加
2020年3月10日	Unicode 13.0.0 ^[47]	143,859	ISO/IEC 10646:2020
2021年9月22日	Unicode 14.0.0 ^[48]	144,697	ISO/IEC 10646:2021	わ行う、ワ行う、ヤ行イ、ヤ行エを追加
2022年9月13日	Unicode 15.0.0 ^[49]	149,186	ISO/IEC 10646:2022
2023年9月12日	Unicode 15.1.0 ^[50]	149,813	ISO/IEC 10646:2023
2024年9月10日	Unicode 16.0.0 ^[51]	154,998	ISO/IEC 10646:2024

構成要素のバージョン

この節は更新が必要とされています。 (2022年7月)

Unicodeのバージョンには、上記のような「Unicodeの規格全体に付けられたバージョン」の他に「Unicodeを構成する個々の要素の規格に付けられたバージョン」が存在する。これに該当するものとしては、Unicodeを構成する各面ごとに付けられたバージョンや、Unicodeに収録されないこととされたスクリプトのリスト (NOR = Not The Roadmap) に付けられたバージョン、規格の一部を構成するUnicode Technical Note（Unicode技術ノート）、Unicode Technical Report（Unicode技術報告）、Unicode Technical Standard（Unicode技術標準）のバージョンなどが存在する。

さらに見る 日付, 全体 ...

日付	全体^[52]	BMP^[53]	SMP^[54]	SIP^[55]	TIP^[56]	SSP^[57]	NOR^[58]
1991年10月	1.0.0^[13]
1992年6月	1.0.1^[14]
1993年6月	1.1.0^[15]
1993年7月	1.1.5^[16]
1996年7月	2.0.0^[17]
1998年5月	2.1.0^[18]
1998年5月	2.1.2^[19]
1998年8月	2.1.5^[20]
1998年10月	2.1.8^[21]
1999年4月	2.1.9^[22]
1999年9月	3.0.0^[23]
2000年8月	3.0.1^[24]
2001年3月	3.1.0^[25]
2001年8月	3.1.1^[26]
2001年10月10日		3.0^[59]	3.0^[60]	3.0^[61]			1.0^[62]
2001年10月12日			3.1^[63]
2001年10月27日		3.1^[64]
2001年11月27日						3.0^[65]
2002年1月22日		3.2^[66]				3.1^[67]
2002年1月29日		3.3^[68]
2002年2月5日		3.4^[69]
2002年3月	3.2.0^[27]
2002年4月3日			3.2^[70]
2002年4月4日		3.5^[71]
2002年6月7日		3.6^[72]	3.3^[73]
2002年6月23日		3.7^[74]
2002年10月2日		3.8^[75]
2002年10月28日		3.9^[76]
2002年11月11日				3.1^[77]
2002年12月3日		3.10^[78]	3.4^[79] 3.5^[80]
2002年12月11日		3.11^[81]
2003年3月12日		3.12^[82]	3.6^[83]
2003年3月15日			3.7^[84]
2003年4月	4.0.0^[28]
2003年4月16日		4.0^[85]	4.0^[86]	4.0^[87]		4.0^[88]	4.0^[89]
2003年5月4日		4.1^[90]
2003年5月16日				4.1^[91]
2003年6月18日		4.2^[92]	4.1^[93]
2003年7月15日						4.1^[94]
2003年8月19日		4.3^[95]
2003年9月11日		4.4^[96]	4.2^[97]
2003年9月20日		4.5^[98]
2003年10月22日		4.6^[99]
2003年10月31日			4.3^[100]
2003年12月23日		4.7^[101]	4.4^[102]
2004年5月	4.0.1^[29]
2004年5月27日			4.5^[103]
2004年6月24日		4.8^[104]	4.6^[105]
2004年7月3日			4.7^[106]
2004年12月1日							4.1^[107]
2005年1月27日				4.2^[108]
2005年1月28日		4.9^[109]	4.8^[110]
2005年3月31日	4.1.0^[30]	4.10^[111]	4.9^[112]
2005年5月27日			4.10^[113]				4.2^[114]
2005年6月10日		4.11^[115]	4.11^[116]
2005年6月27日		4.12^[117]	4.12^[118]	4.3^[119]		4.2^[120]	4.3^[121]
2005年8月1日		4.13^[122]	4.13^[123]
2005年9月6日		4.14^[124]
2005年9月14日		4.15^[125]
2005年9月17日			4.14^[126]
2005年9月19日		4.16^[127]
2005年12月8日			4.15^[128]
2006年1月11日		4.17^[129]	4.16^[130]
2006年4月17日		4.18^[131]	4.17^[132]	4.4^[133]
2006年4月28日							4.4^[134]
2006年7月14日	5.0.0^[31]
2006年9月21日		5.0^[135]	5.0^[136]	5.0^[137]		5.0^[138]	5.0^[139]
2006年9月29日		5.0.1^[140]		5.0.1^[141]
2007年3月14日			5.0.1^[142]
2007年4月11日		5.0.2^[143]	5.0.2^[144]
2007年5月5日		5.0.3^[145]	5.0.3^[146]
2007年7月24日		5.0.4^[147]	5.0.4^[148]				5.0.1^[149]
2007年8月22日		5.0.5^[150]
2007年8月29日			5.0.5^[151]
2008年1月15日			5.0.6^[152]
2008年1月31日		5.0.6^[153]
2008年2月14日		5.0.7^[154]	5.0.7^[155]
2008年4月4日	5.1.0^[32]	5.1.0^[156]	5.1.0^[157]	5.1.0^[158]		5.1.0^[159]	5.1.0^[160]
2008年4月25日		5.1.1^[161]	5.1.1^[162]		5.1.0^[163]		5.1.1^[164]
2008年8月12日		5.1.2^[165]	5.1.2^[166]
2008年8月19日		5.1.3^[167]
2008年10月17日		5.1.4^[168]	5.1.3^[169]		5.1.1^[170]
2009年2月4日		5.1.5^[171]	5.1.4^[172]
2009年2月26日				5.1.1^[173]
2009年4月22日				5.1.2^[174]
2009年4月24日			5.1.5^[175]
2009年10月1日	5.2.0^[35]	5.2.0^[176]	5.2.0^[177]	5.2.0^[178]	5.2.0^[179]	5.2.0^[180]	5.2.0^[181]
2009年11月18日		5.2.1^[182]
2010年2月5日			5.2.1^[183]
2010年2月10日			5.2.2^[184]
2010年2月23日			5.2.3^[185]
2010年4月23日		5.2.2^[186]	5.2.4^[187]
2010年5月12日			5.2.5^[188]
2010年6月24日			5.2.6^[189]
2010年7月27日			5.2.7^[190]
2010年10月11日	6.0.0^[36]	6.0.0^[191]	6.0.0^[192]	6.0.0^[193]	6.0.0^[194]	6.0.0^[195]	6.0.0^[196]
2010年12月6日			6.0.1^[197]
2011年1月9日			6.0.2^[198]
2011年1月14日		6.0.1^[199]
2011年1月27日		6.0.2^[200]	6.0.3^[201]	6.0.1^[202]	6.0.1^[203]	6.0.1^[204]	6.0.1^[205]
2011年3月18日			6.0.4^[206]
2011年5月24日			6.0.5^[207]
2011年6月23日		6.0.3^[208]	6.0.6^[209]
2011年8月1日			6.0.7^[210]
2011年8月15日			6.0.8^[211]
2011年8月24日			6.0.9^[212]
2011年11月15日			6.0.10^[213]
2011年11月29日			6.0.11^[214]
2011年12月19日							6.0.2^[215]
2012年1月6日			6.0.12^[216]
2012年1月31日	6.1.0^[37]
2012年2月1日		6.1.0^[217]	6.1.0^[218]	6.1.0^[219]	6.1.0^[220]	6.1.0^[221]	6.1.0^[222]
2012年2月15日			6.1.1^[223]
2012年5月4日			6.1.2^[224]
2012年7月30日			6.1.3^[225]
2012年8月27日			6.1.4^[226]
2012年9月13日		6.1.1^[227]	6.1.5^[228]
2012年9月26日	6.2.0^[38]
2012年9月27日		6.2.0^[229]	6.2.0^[230]	6.2.0^[231]	6.2.0^[232]	6.2.0^[233]	6.2.0^[234]
2012年10月16日			6.2.1^[235]	6.2.1^[236]
2012年12月2日			6.2.2^[237]	6.2.2^[238]
2013年3月19日			6.2.3^[239]
2013年5月4日			6.2.4^[240]
2013年5月23日			6.2.5^[241]
2013年7月24日			6.2.6^[242]
2013年9月30日	6.3.0^[39]
2013年10月28日		6.3.0^[243]	6.3.0^[244]	6.3.0^[245]	6.3.0^[246]	6.3.0^[247]	6.3.0^[248]
2014年2月19日		6.3.1^[249]	6.3.1^[250]
2014年6月16日	7.0.0^[40]
2014年8月7日		7.0.0^[251]	7.0.0^[252]	7.0.0^[253]	7.0.0^[254]	7.0.0^[255]	7.0.0^[256]
2014年9月18日		7.0.1^[257]	7.0.1^[258]	7.0.1^[259]
2014年10月24日			7.0.2^[260]	7.0.2^[261]	7.0.1^[262]
2015年3月26日		7.0.2^[263]	7.0.3^[264]
2015年6月3日		7.0.3^[265]	7.0.4^[266]
2015年6月17日	8.0.0^[41]
2015年6月26日		8.0.0^[267]	8.0.0^[268]	8.0.0^[269]	8.0.0^[270]	8.0.0^[271]	8.0.0^[272]
2015年8月17日			8.0.1^[273]
2016年1月21日		8.0.1^[274]	8.0.2^[275]		8.0.1^[276]
2016年2月3日			8.0.3^[277]	8.0.1^[278]
2016年5月3日		8.0.2^[279]
2016年6月10日			8.0.4^[280]
2016年6月21日	9.0.0^[42]
2016年6月23日		9.0.0^[281]	9.0.0^[282]	9.0.0^[283]	9.0.0^[284]	9.0.0^[285]	9.0.0^[286]
2017年1月12日			9.0.1^[287]
2017年5月24日		9.0.1^[288]
2017年6月6日			9.0.2^[289]
2017年6月20日	10.0.0^[43]
2017年6月21日		10.0.0^[290]		10.0.0^[291]	10.0.0^[292]	10.0.0^[293]	10.0.0^[294]
2017年6月29日			10.0.0^[295]
2017年12月27日					10.0.1^[296]
2018年1月10日			10.0.1^[297]				-

Remove ads

Unicodeの諸問題

要約

視点

バージョンごとの非互換性

Unicodeは同一のコードでもバージョンが変わったとき完全に異なった文字を定義し直したことがある。

そのうち最大のものがUnicode 2.0での「ハングルの大移動」である。これはUnicode 1.1までで定義されていたハングルの領域を破棄し、新しいハングルの領域を別の位置に設定し、破棄された領域には別の文字の領域を割り当てることとなった。その後、Unicode 3.0では、従来ハングルが割り当てられていた領域にCJK統合漢字拡張A、ついでUnicode 4.0で六十四卦が割り当てられた。このように、Unicode 1.1以前でハングルを記述した文書とUnicode 2.0以降でCJK統合漢字拡張Aを記述した文書には互換性がない^{[注釈 7]}。JCS委員長の芝野耕司はUnicodeに日本語の漢字を収録させる議論の中で、ハングル大移動について「韓国のとった滅茶苦茶な行動」と述べている^[298]。

日本語環境でのUnicodeの諸問題

YEN SIGN 問題

この節の内容の信頼性について検証が求められています。

Shift JIS では JIS X 0201 における（日本や中国の通貨の）円記号 "¥" が 0x5C に置かれている。これを Unicode のマッピングに合わせると YEN SIGN (U+00A5) にマップされる。しかし、0x5C は ASCII ではバックスラッシュ "\" に相当し、C言語などでエスケープ文字として使われる事から、この文字のコードを変更すると問題が起きる。極端な例として、0x5C が円記号とエスケープ文字の両方の目的で使われているケース（たとえばC言語のprintf関数で printf("¥¥%d¥n", price); など）も考えられる。

そのため、Unicode を利用するアプリケーションでは、U+007F 以下のコードに関しては移動させないという暗黙のルールができている。

そうなると、Unicode 環境では円記号がバックスラッシュの表示に変わってしまうように思われるが、これは日本語用のフォントデータの 0x5C の位置には円記号の字形を当ててしまうことで対処している。これによって、日本語環境での表示上は 0x5C の位置で円記号を用いることができる。

この問題は日本語環境に限ったことではない。もともと ISO 646 上では、0x5C を含む数種の文字は自由領域（バリアント）として各国での定義を認めていた。そのため、日本語以外でも ASCII でバックスラッシュに相当するコードに異なる記号を当てているケースが多い。例えば、韓国では通貨のウォン記号 (WON SIGN, U+20A9, "₩")、デンマークやノルウェーではストローク付きO (LATIN CAPITAL LETTER O WITH STROKE, U+00D8, "Ø") などである。（後者は後の時代には、0x5C はバックスラッシュのままとし、ISO 8859 シリーズを用いることが一般化した。）

波ダッシュ・全角チルダ問題

JIS X 0221 規定の JIS X 0208 と JIS X 0221 の対応表では、波ダッシュは WAVE DASH (U+301C, "〜") に対応させている。

しかし、マイクロソフトは Windows の Shift_JIS と Unicode の変換テーブルを作成する際に、JIS X 0208 において 1 区 33 点に割り当てられている波ダッシュ "〜" を、Unicode における全角チルダ (FULLWIDTH TILDE, U+FF5E, "～") に割り当てたため不整合が生じた。

この結果、macOS 等の JIS X 0221 準拠の Shift_JIS ⇔ Unicode 変換テーブルをもつ処理系と Windows との間で Unicode データをやり取りする場合、文字化けを起こすことになる。そこで Windows 以外の OS 上で動くアプリケーションの中には、CP932 という名前でマイクロソフト仕様の Shift_JIS コード体系を別途用意して対応しているケースが多い。この原因とされている Unicode 仕様書の例示字形の問題に関しては、波ダッシュ#Unicodeに関連する問題を参照。

マイクロソフト仕様に起因する問題

上記に加え、マイクロソフト仕様は変換時にも問題が起こる文字を以下に示す。

さらに見る JIS X 0208 区点, Shift JIS ...

JIS X 0208 区点	Shift JIS	JIS X 0208 日本語通用名称	SJISでデコード	MS932でデコード (マイクロソフト仕様)	関連記事
`1-29`	`0x815c`	ダッシュ(全角)	— (`U+2014`) EM DASH	― (`U+2015`) HORIZONTAL BAR	ダッシュ (記号)
`1-33`	`0x8160`	波ダッシュ	〜 (`U+301C`) WAVE DASH	～ (`U+FF5E`) FULLWIDTH TILDE	波ダッシュ、全角チルダ
`1-34`	`0x8161`	双柱	‖ (`U+2016`) DOUBLE VERTICAL LINE	∥ (`U+2225`) PARALLEL TO	双柱、平行記号
`1-61`	`0x817c`	負符号、減算記号	− (`U+2212`) MINUS SIGN	－ (`U+FF0D`) FULLWIDTH HYPHEN-MINUS	マイナス記号、ハイフンマイナス
`1-81`	`0x8191`	セント記号	¢ (`U+00A2`) CENT SIGN	￠ (`U+FFE0`) FULLWIDTH CENT SIGN	セント (通貨)
`1-82`	`0x8192`	ポンド記号	£ (`U+00A3`) POUND SIGN	￡ (`U+FFE1`) FULLWIDTH POUND SIGN	£
`2-44`	`0x81ca`	否定	¬ (`U+00AC`) NOT SIGN	￢ (`U+FFE2`) FULLWIDTH NOT SIGN	否定記号

このうちセント・ポンド・否定については、IBMのメインフレームではShift_JISを拡張してこれらの半角版をコードポイント 0xFD-0xFF に割り当て、別途JIS X 0208からマップされた位置に全角版を収録していたため、WindowsをIBMメインフレームの端末として用いるケースを想定したといわれている^[要出典]。

なお、Windows Vista や Microsoft Office 2007 に付属する IME パッドの文字一覧における JIS X 0213 の面区点の表示は、上記の文字についても JIS で規定されているものと同じマッピングを使用している^[要出典]。

Remove ads

ブロックの一覧

要約

視点

→詳細は「ブロック (Unicode)」を参照

さらに見る 索引 ...

さらに見る 面, ブロックの範囲 ...

表話編歴 Unicodeのブロックと含まれる用字
面	ブロックの範囲^{[一覧 1]}	ブロック名^{[一覧 2]}	日本語名称^{[一覧 3]}	符号位置の数^{[一覧 4]}	割当済の文字の数	用字^{[一覧 5]}^{[一覧 6]}^{[一覧 7]}^{[一覧 8]}

0 BMP	U+0000..U+007F	`Basic Latin`^{[一覧 9]}	基本ラテン文字 Basic Latin	128	128	ラテン文字 (52文字), Common (76文字)
U+0080..U+00FF	`Latin-1 Supplement`^{[一覧 10]}	ラテン1補助 Latin-1 Supplement	128	128	ラテン文字 (64文字), Common (64文字)
U+0100..U+017F	`Latin Extended-A`	ラテン文字拡張A en:Latin Extended-A	128	128	ラテン文字
U+0180..U+024F	`Latin Extended-B`	ラテン文字拡張B en:Latin Extended-B	208	208	ラテン文字
U+0250..U+02AF	`IPA Extensions`	IPA拡張 en:IPA Extensions	96	96	ラテン文字
U+02B0..U+02FF	`Spacing Modifier Letters`	前進を伴う修飾文字 en:Spacing Modifier Letters	80	80	注音符号 (2文字), ラテン文字 (14文字), Common (64文字)
U+0300..U+036F	`Combining Diacritical Marks`	合成可能なダイアクリティカルマーク en:Combining Diacritical Marks	112	112	Inherited
U+0370..U+03FF	`Greek and Coptic`	ギリシア文字及びコプト文字 en:Greek and Coptic	144	135	コプト文字 (14文字), ギリシア文字 (117文字), Common (4文字)
U+0400..U+04FF	`Cyrillic`	キリル文字 Cyrillic	256	256	キリル文字 (254文字), Inherited (2文字)
U+0500..U+052F	`Cyrillic Supplement`	キリル文字補助 en:Cyrillic Supplement	48	48	キリル文字
0 BMP	U+0530..U+058F	`Armenian`	アルメニア文字 Armenian	96	91	アルメニア文字 (90文字), Common (1文字)
U+0590..U+05FF	`Hebrew`	ヘブライ文字 Hebrew	112	88	ヘブライ文字
U+0600..U+06FF	`Arabic`	アラビア文字 Arabic	256	255	アラビア文字 (237文字), Common (6文字), Inherited (12文字)
U+0700..U+074F	`Syriac`	シリア文字 Syriac	80	77	シリア文字
U+0750..U+077F	`Arabic Supplement`	アラビア文字補助 en:Arabic Supplement	48	48	アラビア文字
U+0780..U+07BF	`Thaana`	ターナ文字 Thaana	64	50	ターナ文字
U+07C0..U+07FF	`NKo`	ンコ文字 NKo	64	62	ンコ文字
U+0800..U+083F	`Samaritan`	サマリア文字 Samaritan	64	61	サマリア文字
U+0840..U+085F	`Mandaic`	マンダ文字 Mandaic	32	29	マンダ文字
U+0860..U+086F	`Syriac Supplement`	シリア文字拡張 en:Syriac Supplement	16	11	シリア文字
0 BMP	U+0870..U+089F	`Arabic Extended-B`	アラビア文字拡張B en:Arabic Extended-B	48	41	アラビア文字
U+08A0..U+08FF	`Arabic Extended-A`	アラビア文字拡張A en:Arabic Extended-A	96	96	アラビア文字 (72文字), Common (1文字)
U+0900..U+097F	`Devanagari`	デーヴァナーガリー文字 Devanagari	128	128	デーヴァナーガリー文字 (124文字), Common (2文字), Inherited (2文字)
U+0980..U+09FF	`Bengali`	ベンガル文字 Bengali	128	96	ベンガル文字
U+0A00..U+0A7F	`Gurmukhi`	グルムキー文字 Gurmukhi	128	80	グルムキー文字
U+0A80..U+0AFF	`Gujarati`	グジャラート文字 Gujarati	128	91	グジャラート文字
U+0B00..U+0B7F	`Oriya`	オリヤー文字 Oriya	128	90	オリヤー文字
U+0B80..U+0BFF	`Tamil`	タミル文字 Tamil	128	72	タミル文字
U+0C00..U+0C7F	`Telugu`	テルグ文字 Telugu	128	98	テルグ文字
U+0C80..U+0CFF	`Kannada`	カンナダ文字 Kannada	128	89	カンナダ文字
0 BMP	U+0D00..U+0D7F	`Malayalam`	マラヤーラム文字 Malayalam	128	117	マラヤーラム文字
U+0D80..U+0DFF	`Sinhala`	シンハラ文字 Sinhala	128	90	シンハラ文字
U+0E00..U+0E7F	`Thai`	タイ文字 Thai	128	87	タイ文字 (86文字), Common (1文字)
U+0E80..U+0EFF	`Lao`	ラオス文字 Lao	128	82	ラオス文字
U+0F00..U+0FFF	`Tibetan`	チベット文字 Tibetan	256	211	チベット文字 (207文字), Common (4文字)
U+1000..U+109F	`Myanmar`	ビルマ文字 Myanmar	160	160	ビルマ文字
U+10A0..U+10FF	`Georgian`	グルジア文字 Georgian	96	88	グルジア文字 (87文字), Common (1文字)
U+1100..U+11FF	`Hangul Jamo`	ハングル字母 Hangul Jamo	256	256	ハングル
U+1200..U+137F	`Ethiopic`	エチオピア文字 Ethiopic	384	358	エチオピア文字
U+1380..U+139F	`Ethiopic Supplement`	エチオピア文字補助 en:Ethiopic Supplement	32	26	エチオピア文字
0 BMP	U+13A0..U+13FF	`Cherokee`	チェロキー文字 Cherokee	96	92	チェロキー文字
U+1400..U+167F	`Unified Canadian Aboriginal Syllabics`	統合カナダ先住民音節 Unified Canadian Aboriginal Syllabics	640	640	カナダ先住民文字
U+1680..U+169F	`Ogham`	オガム文字 Ogham	32	29	オガム文字
U+16A0..U+16FF	`Runic`	ルーン文字 Runic	96	89	ルーン文字 (86文字), Common (3文字)
U+1700..U+171F	`Tagalog`	タガログ文字 Tagalog	32	20	タガログ文字
U+1720..U+173F	`Hanunoo`	ハヌノオ文字 Hanunoo	32	23	ハヌノオ文字 (21文字), Common (2文字)
U+1740..U+175F	`Buhid`	ブヒッド文字 Buhid	32	20	ブヒッド文字
U+1760..U+177F	`Tagbanwa`	タグバヌア文字 Tagbanwa	32	18	タグバヌワ文字
U+1780..U+17FF	`Khmer`	クメール文字 Khmer	128	114	クメール文字
U+1800..U+18AF	`Mongolian`	モンゴル文字 Mongolian	176	157	モンゴル文字 (153文字), Common (3文字)
0 BMP	U+18B0..U+18FF	`Unified Canadian Aboriginal Syllabics Extended`	統合カナダ先住民文字拡張 en:Unified Canadian Aboriginal Syllabics Extended	80	70	統合カナダ先住民文字
U+1900..U+194F	`Limbu`	リンブ文字 Limbu	80	68	リンブ文字
U+1950..U+197F	`Tai Le`	タイ・ナ文字 Tai Le	48	35	タイ・ナ文字
U+1980..U+19DF	`New Tai Lue`	新タイ・ロ文字 New Tai Lue	96	83	タイ・ロ文字
U+19E0..U+19FF	`Khmer Symbols`	クメール文字用記号 en:Khmer Symbols	32	32	クメール文字
U+1A00..U+1A1F	`Buginese`	ブギス文字 Buginese	32	30	ブギス文字
U+1A20..U+1AAF	`Tai Tham`	タイ・タム文字 Tai Tham	144	127	タイタム文字
U+1AB0..U+1AFF	`Combining Diacritical Marks Extended`	合成可能なダイアクリティカルマーク拡張 en:Combining Diacritical Marks Extended	80	15	Inherited
U+1B00..U+1B7F	`Balinese`	バリ文字 Balinese	128	121	バリ文字
U+1B80..U+1BBF	`Sundanese`	スンダ文字 Sundanese	64	64	スンダ文字
0 BMP	U+1BC0..U+1BFF	`Batak`	バタク文字 Batak	64	56	バタク文字
U+1C00..U+1C4F	`Lepcha`	レプチャ文字 Lepcha	80	74	レプチャ文字
U+1C50..U+1C7F	`Ol Chiki`	オル・チキ文字 Ol Chiki	48	48	オル・チキ文字
U+1C80..U+1C8F	`Cyrillic Extended-C`	キリル文字拡張C Cyrillic Extended-C	16	9	キリル文字
U+1C90..U+1CBF	`Georgian Extended`	グルジア文字拡張 Georgian Extended	48	46	グルジア文字
U+1CC0..U+1CCF	`Sundanese Supplement`	スンダ文字補助 Sundanese Supplement	16	8	スンダ文字
U+1CD0..U+1CFF	`Vedic Extensions`	ヴェーダ用拡張 Vedic Extensions	48	43	Common (15文字), Inherited (27文字)
U+1D00..U+1D7F	`Phonetic Extensions`	音声記号拡張 Phonetic Extensions	128	128	キリル文字 (2文字), ギリシア文字 (15文字), ラテン文字 (111文字)
U+1D80..U+1DBF	`Phonetic Extensions Supplement`	音声記号拡張補助 Phonetic Extensions Supplement	64	64	ギリシア文字 (1文字), ラテン文字 (63文字)
U+1DC0..U+1DFF	`Combining Diacritical Marks Supplement`	合成可能なダイアクリティカルマーク補助 Combining Diacritical Marks Supplement	64	63	Inherited
0 BMP	U+1E00..U+1EFF	`Latin Extended Additional`	ラテン文字拡張追加 Latin Extended Additional	256	256	ラテン文字
U+1F00..U+1FFF	`Greek Extended`	ギリシア文字拡張 Greek Extended	256	233	ギリシア文字
U+2000..U+206F	`General Punctuation`	一般句読点 General Punctuation	112	111	Common (109文字), Inherited (2文字)
U+2070..U+209F	`Superscripts and Subscripts`	上付き・下付き Superscripts and Subscripts	48	42	ラテン文字 (15文字), Common (27文字)
U+20A0..U+20CF	`Currency Symbols`	通貨記号 Currency Symbols	48	32	Common
U+20D0..U+20FF	`Combining Diacritical Marks for Symbols`	合成可能な記号用ダイアクリティカルマーク en:Combining Diacritical Marks for Symbols	48	33	Inherited
U+2100..U+214F	`Letterlike Symbols`	文字様記号 en:Letterlike Symbols	80	80	ギリシア文字 (1文字), ラテン文字 (4文字), Common (75文字)
U+2150..U+218F	`Number Forms`	数字に準ずるもの en:Number Forms	64	60	ラテン文字 (41文字), Common (19文字)
U+2190..U+21FF	`Arrows`	矢印 Arrows	112	112	Common
U+2200..U+22FF	`Mathematical Operators`	数学記号 Mathematical Operators	256	256	Common
0 BMP	U+2300..U+23FF	`Miscellaneous Technical`	その他の技術用記号 Miscellaneous Technical	256	256	Common
U+2400..U+243F	`Control Pictures`	制御機能用記号 Control Pictures	64	39	Common
U+2440..U+245F	`Optical Character Recognition`	光学的文字認識 Optical Character Recognition	32	11	Common
U+2460..U+24FF	`Enclosed Alphanumerics`	囲み英数字 Enclosed Alphanumerics	160	160	Common
U+2500..U+257F	`Box Drawing`	罫線素片 Box Drawing	128	128	Common
U+2580..U+259F	`Block Elements`	ブロック要素 Block Elements	32	32	Common
U+25A0..U+25FF	`Geometric Shapes`	幾何学模様 Geometric Shapes	96	96	Common
U+2600..U+26FF	`Miscellaneous Symbols`	その他の記号 Miscellaneous Symbols	256	256	Common
U+2700..U+27BF	`Dingbats`	装飾記号 Dingbats	192	192	Common
U+27C0..U+27EF	`Miscellaneous Mathematical Symbols-A`	その他の数学記号A Miscellaneous Mathematical Symbols-A	48	48	Common
0 BMP	U+27F0..U+27FF	`Supplemental Arrows-A`	補助矢印A Supplemental Arrows-A	16	16	Common
U+2800..U+28FF	`Braille Patterns`	点字図形 Braille Patterns	256	256	点字
U+2900..U+297F	`Supplemental Arrows-B`	補助矢印B Supplemental Arrows-B	128	128	Common
U+2980..U+29FF	`Miscellaneous Mathematical Symbols-B`	その他の数学記号B Miscellaneous Mathematical Symbols-B	128	128	Common
U+2A00..U+2AFF	`Supplemental Mathematical Operators`	補助数学記号 Supplemental Mathematical Operators	256	256	Common
U+2B00..U+2BFF	`Miscellaneous Symbols and Arrows`	その他の記号及び矢印 Miscellaneous Symbols and Arrows	256	252	Common
U+2C00..U+2C5F	`Glagolitic`	グラゴル文字 Glagolitic	96	94	グラゴル文字
U+2C60..U+2C7F	`Latin Extended-C`	ラテン文字拡張C Latin Extended-C	32	32	ラテン文字
U+2C80..U+2CFF	`Coptic`	コプト文字 Coptic	128	123	コプト文字
U+2D00..U+2D2F	`Georgian Supplement`	グルジア文字補助 Georgian Supplement	48	40	グルジア文字
0 BMP	U+2D30..U+2D7F	`Tifinagh`	ティフィナグ文字 Tifinagh	80	59	ティフィナグ文字
U+2D80..U+2DDF	`Ethiopic Extended`	エチオピア文字拡張 Ethiopic Extended	96	79	エチオピア文字
U+2DE0..U+2DFF	`Cyrillic Extended-A`	キリル文字拡張A Cyrillic Extended-A	32	32	キリル文字
U+2E00..U+2E7F	`Supplemental Punctuation`	補助句読点 Supplemental Punctuation	128	80	Common
U+2E80..U+2EFF	`CJK Radicals Supplement`	CJK部首補助 CJK Radicals Supplement	128	115	漢字
U+2F00..U+2FDF	`Kangxi Radicals`	康煕部首 Kangxi Radicals	224	214	漢字
U+2FF0..U+2FFF	`Ideographic Description Characters`	漢字構成記述文字 Ideographic Description Characters	16	12	Common
U+3000..U+303F	`CJK Symbols and Punctuation`	CJKの記号及び句読点 en:CJK Symbols and Punctuation	64	64	漢字 (15文字), ハングル (2文字), Common (43文字), Inherited (4文字)
U+3040..U+309F	`Hiragana`	平仮名 Hiragana	96	93	平仮名 (89文字), Common (2文字), Inherited (2文字)
U+30A0..U+30FF	`Katakana`	片仮名 Katakana	96	96	片仮名 (93文字), Common (3文字)
0 BMP	U+3100..U+312F	`Bopomofo`	注音字母 Bopomofo	48	42	注音符号
U+3130..U+318F	`Hangul Compatibility Jamo`	ハングル互換字母 Hangul Compatibility Jamo	96	94	ハングル
U+3190..U+319F	`Kanbun`	漢文用記号 Kanbun	16	16	Common
U+31A0..U+31BF	`Bopomofo Extended`	注音字母拡張 en:Bopomofo Extended	32	27	注音符号
U+31C0..U+31EF	`CJK Strokes`	CJKの筆画 CJK Strokes	48	36	Common
U+31F0..U+31FF	`Katakana Phonetic Extensions`	片仮名拡張 Katakana Phonetic Extensions	16	16	片仮名
U+3200..U+32FF	`Enclosed CJK Letters and Months`	囲みCJK文字・月 Enclosed CJK Letters and Months	256	255	ハングル (62文字), 片仮名 (47文字), Common (146文字)
U+3300..U+33FF	`CJK Compatibility`	CJK互換用文字 CJK Compatibility	256	256	片仮名 (88文字), Common (168文字)
U+3400..U+4DBF	`CJK Unified Ideographs Extension A`	CJK統合漢字拡張A CJK Unified Ideographs Extension A	6,592	6,582	漢字
U+4DC0..U+4DFF	`Yijing Hexagram Symbols`	易経記号 Yijing Hexagram Symbols	64	64	Common
0 BMP	U+4E00..U+9FFF	`CJK Unified Ideographs`	CJK統合漢字 CJK Unified Ideographs	20,992	20,976	漢字
U+A000..U+A48F	`Yi Syllables`	イ文字 Yi Syllables	1,168	1,165	イ文字
U+A490..U+A4CF	`Yi Radicals`	イ文字部首 Yi Radicals	64	55	イ文字
U+A4D0..U+A4FF	`Lisu`	リス文字 Lisu	48	48	リス文字
U+A500..U+A63F	`Vai`	ヴァイ文字 Vai	320	300	ヴァイ文字
U+A640..U+A69F	`Cyrillic Extended-B`	キリル文字拡張B Cyrillic Extended-B	96	96	キリル文字
U+A6A0..U+A6FF	`Bamum`	バムン文字 Bamum	96	88	バムン文字
U+A700..U+A71F	`Modifier Tone Letters`	声調修飾文字 Modifier Tone Letters	32	32	Common
U+A720..U+A7FF	`Latin Extended-D`	ラテン文字拡張D Latin Extended-D	224	174	ラテン文字 (169文字), Common (5文字)
U+A800..U+A82F	`Syloti Nagri`	シロティ・ナグリ文字 Syloti Nagri	48	44	シロティ・ナグリ文字
0 BMP	U+A830..U+A83F	`Common Indic Number Forms`	インド慣用数量記号 Common Indic Number Forms	16	10	Common
U+A840..U+A87F	`Phags-pa`	パスパ文字 Phags-pa	64	56	パスパ文字
U+A880..U+A8DF	`Saurashtra`	サウラーシュトラ文字 Saurashtra	96	82	サウラーシュトラ文字
U+A8E0..U+A8FF	`Devanagari Extended`	デーヴァナーガリー文字拡張 Devanagari Extended	32	32	デーヴァナーガリー文字
U+A900..U+A92F	`Kayah Li`	カヤー文字 Kayah Li	48	48	カヤー文字（英語版） (47文字), Common (1文字)
U+A930..U+A95F	`Rejang`	ルジャン文字 Rejang	48	37	ルジャン文字
U+A960..U+A97F	`Hangul Jamo Extended-A`	ハングル字母拡張A Hangul Jamo Extended-A	32	29	ハングル
U+A980..U+A9DF	`Javanese`	ジャワ文字 Javanese	96	91	ジャワ文字 (90文字), Common (1文字)
U+A9E0..U+A9FF	`Myanmar Extended-B`	ビルマ文字拡張B Myanmar Extended-B	32	31	ビルマ文字
U+AA00..U+AA5F	`Cham`	チャム文字 Cham	96	83	チャム文字
0 BMP	U+AA60..U+AA7F	`Myanmar Extended-A`	ビルマ文字拡張A Myanmar Extended-A	32	32	ビルマ文字
U+AA80..U+AADF	`Tai Viet`	タイ・ヴィエト文字 Tai Viet	96	72	タイ・ヴィエト文字
U+AAE0..U+AAFF	`Meetei Mayek Extensions`	メイテイ文字拡張 Meetei Mayek Extensions	32	23	メイテイ文字
U+AB00..U+AB2F	`Ethiopic Extended-A`	エチオピア文字拡張A Ethiopic Extended-A	48	32	エチオピア文字
U+AB30..U+AB6F	`Latin Extended-E`	ラテン文字拡張E Latin Extended-E	64	56	ラテン文字 (54文字), ギリシア文字 (1文字), Common (1文字)
U+AB70..U+ABBF	`Cherokee Supplement`	チェロキー文字補助 Cherokee Supplement	80	80	チェロキー文字
U+ABC0..U+ABFF	`Meetei Mayek`	メイテイ文字 Meetei Mayek	64	56	メイテイ文字
U+AC00..U+D7AF	`Hangul Syllables`	ハングル音節文字 Hangul Syllables	11,184	11,172	ハングル
U+D7B0..U+D7FF	`Hangul Jamo Extended-B`	ハングル字母拡張B Hangul Jamo Extended-B	80	72	ハングル
U+D800..U+DB7F	`High Surrogates`	サロゲート (high surrogate) High Surrogates	896	0	Unknown
0 BMP	U+DB80..U+DBFF	`High Private Use Surrogates`	サロゲート (high private use surrogate) High Private Use Surrogates	128	0	Unknown
U+DC00..U+DFFF	`Low Surrogates`	サロゲート (low surrogate) Low Surrogates	1,024	0	Unknown
U+E000..U+F8FF	`Private Use Area`	私用領域 Private Use Area	6,400	6,400	Unknown
U+F900..U+FAFF	`CJK Compatibility Ideographs`	CJK互換漢字 CJK Compatibility Ideographs	512	472	漢字
U+FB00..U+FB4F	`Alphabetic Presentation Forms`	アルファベット表示形 Alphabetic Presentation Forms	80	58	Armenian (5文字), Hebrew (46文字), ラテン文字 (7文字)
U+FB50..U+FDFF	`Arabic Presentation Forms-A`	アラビア表示形A Arabic Presentation Forms-A	688	611	アラビア文字 (609文字), Common (2文字)
U+FE00..U+FE0F	`Variation Selectors`	字形選択子 Variation Selectors	16	16	Inherited
U+FE10..U+FE1F	`Vertical Forms`	縦書き形 Vertical Forms	16	10	Common
U+FE20..U+FE2F	`Combining Half Marks`	合成可能な半記号 Combining Half Marks	16	16	キリル文字 (2文字), Inherited (14文字)
U+FE30..U+FE4F	`CJK Compatibility Forms`	CJK互換形 CJK Compatibility Forms	32	32	Common
0 BMP	U+FE50..U+FE6F	`Small Form Variants`	小字形 Small Form Variants	32	26	Common
U+FE70..U+FEFF	`Arabic Presentation Forms-B`	アラビア表示形B Arabic Presentation Forms-B	144	141	アラビア文字 (140文字), Common (1文字)
U+FF00..U+FFEF	`Halfwidth and Fullwidth Forms`	半角・全角形 Halfwidth and Fullwidth Forms	240	225	ハングル (52文字), 片仮名 (55文字), ラテン文字 (52文字), Common (66文字)
U+FFF0..U+FFFF	`Specials`	特殊用途文字 Specials	16	5	Common
1 SMP	U+10000..U+1007F	`Linear B Syllabary`	線文字B音節文字 Linear B Syllabary	128	88	線文字B
U+10080..U+100FF	`Linear B Ideograms`	線文字B表意文字 Linear B Ideograms	128	123	線文字B
U+10100..U+1013F	`Aegean Numbers`	エーゲ数字 Aegean Numbers	64	57	Common
U+10140..U+1018F	`Ancient Greek Numbers`	古代ギリシア数字 Ancient Greek Numbers	80	79	ギリシア文字
U+10190..U+101CF	`Ancient Symbols`	古代記号 Ancient Symbols	64	13	ギリシア文字 (1文字), Common (12文字)
U+101D0..U+101FF	`Phaistos Disc`	ファイストスの円盤文字 Phaistos Disc	48	46	Common (45文字), Inherited (1文字)
U+10280..U+1029F	`Lycian`	リュキア文字 Lycian	32	29	リュキア文字
U+102A0..U+102DF	`Carian`	カリア文字 Carian	64	49	カリア文字
U+102E0..U+102FF	`Coptic Epact Numbers`	コプト・エパクト数字 Coptic Epact Numbers	32	28	Common (27文字), Inherited (1文字)
U+10300..U+1032F	`Old Italic`	古代イタリア文字 Old Italic	48	39	古代イタリア文字
1 SMP	U+10330..U+1034F	`Gothic`	ゴート文字 Gothic	32	27	ゴート文字
U+10350..U+1037F	`Old Permic`	古ペルム文字 Old Permic	48	43	古ペルム文字
U+10380..U+1039F	`Ugaritic`	ウガリト文字 Ugaritic	32	31	ウガリト文字
U+103A0..U+103DF	`Old Persian`	古代ペルシャ文字 Old Persian	64	50	古代ペルシャ文字
U+10400..U+1044F	`Deseret`	デザレット文字 Deseret	80	80	デザレット文字
U+10450..U+1047F	`Shavian`	ショー文字 Shavian	48	48	ショー文字
U+10480..U+104AF	`Osmanya`	オスマニア文字 Osmanya	48	40	オスマニヤ文字
U+104B0..U+104FF	`Osage`	オセージ文字 Osage	80	72	オセージ文字（英語版）
U+10500..U+1052F	`Elbasan`	エルバサン文字 Elbasan	48	40	エルバサン文字（英語版）
U+10530..U+1056F	`Caucasian Albanian`	カフカス・アルバニア文字 Caucasian Albanian	64	53	カフカス・アルバニア文字（英語版）
1 SMP	U+10570..U+105BF	`Vithkuqi`	ビタクチェ文字 Vithkuqi	80	70	ビタクチェ文字
U+10600..U+1077F	`Linear A`	線文字A Linear A	384	341	線文字A
U+10780..U+107BF	`Latin Extended-F`	ラテン文字拡張F Latin Extended-F	64	57	ラテン文字
U+10800..U+1083F	`Cypriot Syllabary`	キプロス音節文字 Cypriot Syllabary	64	55	キプロス音節文字
U+10840..U+1085F	`Imperial Aramaic`	帝国アラム文字 Imperial Aramaic	32	31	アラム文字
U+10860..U+1087F	`Palmyrene`	パルミラ文字 Palmyrene	32	32	パルミラ文字
U+10880..U+108AF	`Nabataean`	ナバテア文字 Nabataean	48	40	ナバテア文字
U+108E0..U+108FF	`Hatran`	ハトラ文字 Hatran	32	26	ハトラ文字（英語版）
U+10900..U+1091F	`Phoenician`	フェニキア文字 Phoenician	32	29	フェニキア文字
U+10920..U+1093F	`Lydian`	リュディア文字 Lydian	32	27	リュディア文字
1 SMP	U+10980..U+1099F	`Meroitic Hieroglyphs`	メロエ文字楷書体 Meroitic Hieroglyphs	32	32	メロエ文字楷書体
U+109A0..U+109FF	`Meroitic Cursive`	メロエ文字草書体 Meroitic Cursive	96	90	メロエ文字草書体
U+10A00..U+10A5F	`Kharoshthi`	カローシュティー文字 Kharoshthi	96	68	カローシュティー文字
U+10A60..U+10A7F	`Old South Arabian`	古代南アラビア文字 Old South Arabian	32	32	古代南アラビア文字
U+10A80..U+10A9F	`Old North Arabian`	古代北アラビア文字 Old North Arabian	32	32	古代北アラビア文字
U+10AC0..U+10AFF	`Manichaean`	マニ文字 Manichaean	64	51	マニ文字
U+10B00..U+10B3F	`Avestan`	アヴェスタ文字 Avestan	64	61	アヴェスタ文字
U+10B40..U+10B5F	`Inscriptional Parthian`	碑文パルティア文字 Inscriptional Parthian	32	30	碑文パルティア文字
U+10B60..U+10B7F	`Inscriptional Pahlavi`	碑文パフラヴィ文字 Inscriptional Pahlavi	32	27	碑文パフラヴィ文字
U+10B80..U+10BAF	`Psalter Pahlavi`	詩編パフラヴィ文字 Psalter Pahlavi	48	29	詩編パフラヴィ文字
1 SMP	U+10C00..U+10C4F	`Old Turkic`	突厥文字 Old Turkic	80	73	突厥文字
U+10C80..U+10CFF	`Old Hungarian`	古ハンガリー文字 Old Hungarian	128	108	古ハンガリー文字
U+10D00..U+10D3F	`Hanifi Rohingya`	ハニーフィー・ロヒンギャ文字 Hanifi Rohingya	64	50	ハニーフィー・ロヒンギャ文字
U+10E60..U+10E7F	`Rumi Numeral Symbols`	ルミ数字記号 Rumi Numeral Symbols	32	31	アラビア文字
U+10E80..U+10EBF	`Yezidi`	ヤズィーディー文字 Yezidi	64	47	ヤズィーディー文字
U+10EC0..U+10EFF	`Arabic Extended-C`	アラビア文字拡張C Arabic Extended-C	64	3	アラビア文字
U+10F00..U+10F2F	`Old Sogdian`	古ソグド文字 Old Sogdian	48	40	古ソグド文字
U+10F30..U+10F6F	`Sogdian`	ソグド文字 Sogdian	64	42	ソグド文字
U+10F70..U+10FAF	`Old Uyghur`	古ウイグル文字 Old Uyghur	64	26	古ウイグル文字
U+10FB0..U+10FDF	`Chorasmian`	ホラズム文字 Chorasmian	48	28	ホラズム文字
1 SMP	U+10FE0..U+10FFF	`Elymaic`	エリマイス文字 Elymaic	32	23	エリマイス文字（英語版）
U+11000..U+1107F	`Brahmi`	ブラーフミー文字 Brahmi	128	109	ブラーフミー文字
U+11080..U+110CF	`Kaithi`	カイティー文字 Kaithi	80	67	カイティー文字
U+110D0..U+110FF	`Sora Sompeng`	ソラングソンペング文字 Sora Sompeng	48	35	ソラング・ソンペング文字
U+11100..U+1114F	`Chakma`	チャクマ文字 Chakma	80	70	チャクマ文字（英語版）
U+11150..U+1117F	`Mahajani`	マハージャニー文字 Mahajani	48	39	マハージャニー文字
U+11180..U+111DF	`Sharada`	シャーラダー文字 Sharada	96	94	シャーラダー文字
U+111E0..U+111FF	`Sinhala Archaic Numbers`	旧シンハラ数字 Sinhala Archaic Numbers	32	20	シンハラ文字
U+11200..U+1124F	`Khojki`	ホジャ文字 Khojki	80	62	ホジャ文字（英語版）
U+11280..U+112AF	`Multani`	ムルターニー文字 Multani	48	38	ムルターニー文字（英語版）
1 SMP	U+112B0..U+112FF	`Khudawadi`	フダーワーディー文字 Khudawadi	80	69	フダーワーディー文字（英語版）
U+11300..U+1137F	`Grantha`	グランタ文字 Grantha	128	86	グランタ文字
U+11400..U+1147F	`Newa`	ネワ文字 Newa	128	92	ネワ文字（英語版）
U+11480..U+114DF	`Tirhuta`	ティルフータ文字 Tirhuta	96	82	マイティリー文字
U+11580..U+115FF	`Siddham`	悉曇文字 Siddham	128	92	悉曇文字
U+11600..U+1165F	`Modi`	モーディー文字 Modi	96	79	モーディー文字
U+11660..U+1167F	`Mongolian Supplement`	モンゴル文字補助 Mongolian Supplement	32	13	モンゴル文字
U+11680..U+116CF	`Takri`	タークリー文字 Takri	80	67	タークリー文字
U+11700..U+1174F	`Ahom`	アーホム文字 Ahom	80	58	アーホム文字
U+11800..U+1184F	`Dogra`	ドーグリー文字 Dogra	80	60	ドーグリー文字
1 SMP	U+118A0..U+118FF	`Warang Citi`	ワラング・クシティ文字 Warang Citi	96	84	ワラング・クシティ文字
U+11900..U+1195F	`Dives Akuru`	ディヴェス・アクル文字 Dives Akuru	96	72	ディヴェス・アクル文字（英語版）
U+119A0..U+119FF	`Nandinagari`	ナンディナーガリー文字 Nandinagari	96	65	ナンディナーガリー文字（英語版）
U+11A00..U+11A4F	`Zanabazar Square`	ザナバザル方形文字 Zanabazar Square	80	72	ザナバザル方形文字（英語版）
U+11A50..U+11AAF	`Soyombo`	ソヨンボ文字 Soyombo	96	83	ソヨンボ文字
U+11AB0..U+11ABF	`Unified Canadian Aboriginal Syllabics Extended-A`	統合カナダ先住民音節拡張A Unified Canadian Aboriginal Syllabics Extended-A	16	16	カナダ先住民文字
U+11AC0..U+11AFF	`Pau Cin Hau`	パウ・チン・ハウ文字 Pau Cin Hau	64	57	パウ・チン・ハウ文字
U+11C00..U+11C6F	`Bhaiksuki`	バイクシュキー文字 Bhaiksuki	112	97	バイクシュキー文字（英語版）
U+11C70..U+11CBF	`Marchen`	マルチェン文字 Marchen	80	68	マルチェン文字（英語版）
U+11D00..U+11D5F	`Masaram Gondi`	マサラム・ゴーンディー文字 Masaram Gondi	96	75	マサラム・ゴーンディー文字（英語版）
1 SMP	U+11D60..U+11DAF	`Gunjala Gondi`	グンジャラ・ゴーンディー文字 Gunjala Gondi	80	63	グンジャラ・ゴーンディー文字
U+11EE0..U+11EFF	`Makasar`	マカッサル文字 Makasar	32	25	マカッサル文字
U+11F00..U+11F5F	`Kawi`	カウィ文字 Kawi	96	86	カウィ文字（英語版）
U+11FB0..U+11FBF	`Lisu Supplement`	リス文字補助 Lisu Supplement	16	1	リス文字
U+11FC0..U+11FFF	`Tamil Supplement`	タミル文字補助 Tamil Supplement	64	51	タミル文字
U+12000..U+123FF	`Cuneiform`	楔形文字 Cuneiform	1,024	922	楔形文字
U+12400..U+1247F	`Cuneiform Numbers and Punctuation`	楔形文字の数字及び句読点 Cuneiform Numbers and Punctuation	128	116	楔形文字
U+12480..U+1254F	`Early Dynastic Cuneiform`	シュメール楔形文字 Early Dynastic Cuneiform	208	196	楔形文字
U+12F90..U+12FFF	`Cypro-Minoan`	キュプロ・ミノア文字 Cypro-Minoan	112	99	キュプロ・ミノア文字
U+13000..U+1342F	`Egyptian Hieroglyphs`	エジプト聖刻文字 Egyptian Hieroglyphs	1,072	1,071	エジプト聖刻文字
1 SMP	U+13430..U+1343F	`Egyptian Hieroglyph Format Controls`	エジプト聖刻文字書式制御記号 Egyptian Hieroglyph Format Controls	16	9	エジプト聖刻文字
U+14400..U+1467F	`Anatolian Hieroglyphs`	アナトリア聖刻文字 Anatolian Hieroglyphs	640	583	アナトリア聖刻文字
U+16800..U+16A3F	`Bamum Supplement`	バムン文字補助 Bamum Supplement	576	569	バムン文字
U+16A40..U+16A6F	`Mro`	ムロ文字 Mro	48	43	ムロ文字（英語版）
U+16AD0..U+16AFF	`Bassa Vah`	バサ文字 Bassa Vah	48	36	バサ文字
U+16B00..U+16B8F	`Pahawh Hmong`	パハウ・フモン文字 Pahawh Hmong	144	127	パハウ・フモン文字
U+16E40..U+16E9F	`Medefaidrin`	メデファイドリン文字 Medefaidrin	96	91	メデファイドリン文字
U+16F00..U+16F9F	`Miao`	ミャオ文字 Miao	160	149	ミャオ文字
U+16FE0..U+16FFF	`Ideographic Symbols and Punctuation`	漢字の記号及び句読点 Ideographic Symbols and Punctuation	32	4	女書 (1文字), 西夏文字 (1文字), Common (2文字)
U+17000..U+187FF	`Tangut`	西夏文字 Tangut	6,144	6,136	西夏文字
1 SMP	U+18800..U+18AFF	`Tangut Components`	西夏文字の構成要素 Tangut Components	768	755	西夏文字
U+18B00..U+18CFF	`Khitan Small Script`	契丹小字 Khitan Small Script	512	470	契丹小字
U+18D00..U+18D7F	`Tangut Supplement`	西夏文字補助 Tangut Supplement	128	9	西夏文字
U+1AFF0..U+1AFFF	`Kana Extended-B`	仮名拡張B Kana Extended-B	16	13	片仮名
U+1B000..U+1B0FF	`Kana Supplement`	仮名補助 Kana Supplement	256	256	平仮名 (255文字), 片仮名 (1文字)
U+1B100..U+1B12F	`Kana Extended-A`	仮名拡張A Kana Extended-A	48	31	平仮名 (32文字), 片仮名 (3文字)
U+1B130..U+1B16F	`Small Kana Extension`	小書き仮名拡張 Small Kana Extension	64	7	平仮名(4文字), 片仮名(5文字)
U+1B170..U+1B2FF	`Nushu`	女書 Nushu	400	396	女書
U+1BC00..U+1BC9F	`Duployan`	デュプロワイエ式速記 Duployan	160	143	デュプロワイエ式速記（英語版）
U+1BCA0..U+1BCAF	`Shorthand Format Controls`	速記書式制御記号 Shorthand Format Controls	16	4	Common
1 SMP	U+1CF00..U+1CFCF	`Znamenny Musical Notation`	ズナメニ聖歌音符 Znamenny Musical Notation	208	185	Common (116文字),Inherited (69文字)
U+1D000..U+1D0FF	`Byzantine Musical Symbols`	ビザンチン音楽記号 Byzantine Musical Symbols	256	246	Common
U+1D100..U+1D1FF	`Musical Symbols`	音楽記号 Musical Symbols	256	231	Common (209文字), Inherited (22文字)
U+1D200..U+1D24F	`Ancient Greek Musical Notation`	古代ギリシア音符記号 Ancient Greek Musical Notation	80	70	ギリシア文字
U+1D2C0..U+1D2DF	`Kaktovik Numerals`	カクトヴィク数字 Kaktovik Numerals	32	20	Common
U+1D2E0..U+1D2FF	`Mayan Numerals`	マヤ数字 Mayan Numerals	32	20	Common
U+1D300..U+1D35F	`Tai Xuan Jing Symbols`	太玄経記号 Tai Xuan Jing Symbols	96	87	Common
U+1D360..U+1D37F	`Counting Rod Numerals`	算木用数字 en:Counting Rod Numerals	32	25	Common
U+1D400..U+1D7FF	`Mathematical Alphanumeric Symbols`	数学用英数字記号 Mathematical Alphanumeric Symbols	1,024	996	Common
U+1D800..U+1DAAF	`Sutton SignWriting`	サットン手話表記法 Sutton SignWriting	688	672	サットン手話表記法（英語版）
1 SMP	U+1DF00..U+1DFFF	`Latin Extended-G`	ラテン文字拡張G Latin Extended-G	256	37	ラテン文字
U+1E000..U+1E02F	`Glagolitic Supplement`	グラゴル文字補助 Glagolitic Supplement	48	38	グラゴル文字
U+1E030..U+1E08F	`Cyrillic Extended-D`	キリル文字拡張D Cyrillic Extended-D	96	63	キリル文字
U+1E100..U+1E14F	`Nyiakeng Puachue Hmong`	Nyiakeng Puachue Hmong文字 Nyiakeng Puachue Hmong	80	71	Nyiakeng Puachue Hmong文字
U+1E290..U+1E2BF	`Toto`	トト Toto	48	31	トト文字
U+1E2C0..U+1E2FF	`Wancho`	ワンチョ文字 Wancho	64	59	ワンチョ文字（英語版）
U+1E4D0..U+1E4FF	`Nag Mundari`	ムンダリ・バニ文字 Nag Mundari	48	42	ムンダリ・バニ文字（英語版）
U+1E7E0..U+1E7FF	`Ethiopic Extended-B`	エチオピア文字拡張B Ethiopic Extended-B	32	28	エチオピア文字
U+1E800..U+1E8DF	`Mende Kikakui`	メンデ文字 Mende Kikakui	224	213	メンデ文字
U+1E900..U+1E95F	`Adlam`	アドラム文字 Adlam	96	88	アドラム文字（英語版）
1 SMP	U+1EC70..U+1ECBF	`Indic Siyaq Numbers`	インド・シヤク数字 Indic Siyaq Numbers	80	68	Common
U+1ED00..U+1ED4F	`Ottoman Siyaq Numbers`	オスマン・シヤク数字 Ottoman Siyaq Numbers	80	61	Common
U+1EE00..U+1EEFF	`Arabic Mathematical Alphabetic Symbols`	アラビア数字記号 Arabic Mathematical Alphabetic Symbols	256	143	アラビア文字
U+1F000..U+1F02F	`Mahjong Tiles`	マージャン記号 Mahjong Tiles	48	44	Common
U+1F030..U+1F09F	`Domino Tiles`	ドミノ記号 en:Domino Tiles	112	100	Common
U+1F0A0..U+1F0FF	`Playing Cards`	トランプ記号 Playing Cards	96	82	Common
U+1F100..U+1F1FF	`Enclosed Alphanumeric Supplement`	囲み英数字補助 Enclosed Alphanumeric Supplement	256	193	Common
U+1F200..U+1F2FF	`Enclosed Ideographic Supplement`	囲み漢字補助 Enclosed Ideographic Supplement	256	64	平仮名 (1文字), Common (63文字)
U+1F300..U+1F5FF	`Miscellaneous Symbols and Pictographs`	その他の記号及び絵記号 Miscellaneous Symbols and Pictographs	768	768	Common
U+1F600..U+1F64F	`Emoticons`	顔文字 Emoticons	80	80	Common
1 SMP	U+1F650..U+1F67F	`Ornamental Dingbats`	装飾用絵記号 Ornamental Dingbats	48	48	Common
U+1F680..U+1F6FF	`Transport and Map Symbols`	交通及び地図記号 Transport and Map Symbols	128	110	Common
U+1F700..U+1F77F	`Alchemical Symbols`	錬金術記号 Alchemical Symbols	128	116	Common
U+1F780..U+1F7FF	`Geometric Shapes Extended`	幾何学模様拡張 Geometric Shapes Extended	128	101	Common
U+1F800..U+1F8FF	`Supplemental Arrows-C`	補助矢印C Supplemental Arrows-C	256	148	Common
U+1F900..U+1F9FF	`Supplemental Symbols and Pictographs`	補助記号及び絵記号 Supplemental Symbols and Pictographs	256	244	Common
U+1FA00..U+1FA6F	`Chess Symbols`	チェス記号 Chess Symbols	112	98	Common
U+1FA70..U+1FAFF	`Symbols and Pictographs Extended-A`	記号及び絵記号拡張A Symbols and Pictographs Extended-A	144	16	Common
U+1FB00..U+1FBFF	`Symbols for Legacy Computing`	旧型コンピュータ記号 Symbols for Legacy Computing	256	212	Common
2 SIP	U+20000..U+2A6DF	`CJK Unified Ideographs Extension B`	CJK統合漢字拡張B CJK Unified Ideographs Extension B	42,720	42,711	漢字
U+2A700..U+2B73F	`CJK Unified Ideographs Extension C`	CJK統合漢字拡張C en:CJK Unified Ideographs Extension C	4,160	4,149	漢字
U+2B740..U+2B81F	`CJK Unified Ideographs Extension D`	CJK統合漢字拡張D en:CJK Unified Ideographs Extension D	224	222	漢字
U+2B820..U+2CEAF	`CJK Unified Ideographs Extension E`	CJK統合漢字拡張E en:CJK Unified Ideographs Extension E	5,776	5,762	漢字
U+2CEB0..U+2EBEF	`CJK Unified Ideographs Extension F`	CJK統合漢字拡張F en:CJK Unified Ideographs Extension F	7,488	7,473	漢字
U+2EBF0..U+2EE5F	`CJK Unified Ideographs Extension I`	CJK統合漢字拡張I en:CJK Unified Ideographs Extension I	624	622	漢字
U+2F800..U+2FA1F	`CJK Compatibility Ideographs Supplement`	CJK互換漢字補助 en:CJK Compatibility Ideographs Supplement	544	542	漢字
3 TIP	U+30000..U+3134F	`CJK Unified Ideographs Extension G`	CJK統合漢字拡張G en:CJK Unified Ideographs Extension G	4,944	4,939	漢字
U+31350..U+323AF	`CJK Unified Ideographs Extension H`	CJK統合漢字拡張H en:CJK Unified Ideographs Extension H	4,192	4,192	漢字
14 SSP	U+E0000..U+E007F	`Tags`	タグ Tags	128	97	Common
U+E0100..U+E01EF	`Variation Selectors Supplement`	字形選択子補助 en:Variation Selectors Supplement	240	240	Inherited
15 PUA-A	U+F0000..U+FFFFF	`Supplementary Private Use Area-A`	補助私用領域A Supplementary Private Use Area-A	65,536	65,534	Unknown
16 PUA-B	U+100000..U+10FFFF	`Supplementary Private Use Area-B`	補助私用領域B Supplementary Private Use Area-B	65,536	65,534	Unknown
[一 1] Unicode Blocks data file. As of Unicode version 12.1 [一 2] Unicodeデータファイル^{[一覧 1]}で定義されている値を記載する。 [一 3] 日本語名称は、原則としてJIS X 0221:2014 附属書A A.2「ブロックの一覧」の「日本語による通用名称（参考）」に準拠する。ただし、一部でWikipeiaの項目名にふさわしい形に改変している（「ダイアクリティカルマーク（合成可能）」→「合成可能なダイアクリティカルマーク」、「けい線素辺」→「罫線素片」など）。また、JIS X 0221:2014はUnicode6.1に準拠したものであり、その後にUnicodeに追加されたブロックの、この表に記載された日本語名称は暫定的なものである。 [一 4] 符号位置 (code point) には未割当 (unassigned)、すなわち非文字 (non-character) および保留 (reserved) の符号位置も数えている。 [一 5] 各々の用字 (script) は、各ブロック中で一個または複数個の文字を持つ。これは文字の用字特性 (Script Property) で定義される。用字特性はブロックの名前とは独立である。 [一 6] "Common" および "Unknown" (Zyyy) および "Inherited"（Zinh または Qaai）は、ISO 15924の用字を参照する。 [一 7] UAX 24: Unicode Script Property (4 alpha code) [一 8] UAX 24: Script data file [一 9] ISO/IEC 10646では "C0 Controls and Basic Latin" と呼ばれる。 [一 10] ISO/IEC 10646では "C1 Controls and Latin-1 Supplement" と呼ばれる。

Remove ads

脚注

Loading content...

参考文献

Loading content...

外部リンク

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

概要

Unicode文字符号化モデル

文字集合

文字符号化形式

文字符号化方式

その他

拡張領域

サロゲートペア

コーディング

面

歴史

Unicodeのバージョン

各バージョンとその特徴

構成要素のバージョン

Unicodeの諸問題

バージョンごとの非互換性

日本語環境でのUnicodeの諸問題

YEN SIGN 問題

波ダッシュ・全角チルダ問題

マイクロソフト仕様に起因する問題

ブロックの一覧

脚注

参考文献

関連項目

外部リンク