トップQs
タイムライン
チャット
視点

CJK互換漢字

Unicodeの「東アジア」の漢字のブロック ウィキペディアから

Remove ads

CJK互換漢字(シージェーケーごかんかんじ、英語: CJK Compatibility Ideographs)は、Unicodeブロックの一つであり、Unicodeの統合規則に従うなら本来CJK統合漢字に統合されるはずであるが、既存の文字コードとの互換性のためUnicodeに収録された互換文字の一種である。

概要 範囲, 面 ...
Remove ads

内訳

要約
視点

文字コード順ではなく、登録された順に紹介する。

U+F900 - U+FA0B
韓国文字コード規格KS X 1001(収録当時の規格番号はKS C 5601)に含まれる重複漢字との往復変換を保証するために収録された漢字
KS X 1001では漢字を韓国語での辞書順に配列しているが、一部の漢字には複数の読みが存在する。KS X 1001は同じ形でも複数の読みを持つ漢字は分離して収録しているため、これらは統合されて統合漢字に収録された。
韓国はこれらの文字に対して原規格分離を主張しなかったが、往復変換を保証できなくては困るとしたユニコードコンソーシアムの代表からの要求により、互換漢字として収録された[4]。この範囲の内、U+F91D()、U+F928()、U+F929()、U+F936()、U+F970()、U+F9D0()、U+F9DC()は、IBM拡張漢字およびJIS X 0213と共有している。
U+FA0C - U+FA0D
台湾の文字コードBig5に誤って重複して収録された2文字に対応する漢字。
U+FA0E - U+FA2D
IBM拡張漢字のうち、CJK統合漢字のブロックに収録されなかったもの。IRGを経由する漢字の通常の登録提案を経ずに、カナダからの提案としてISO/IEC 10646に収録されたため、「カナダ漢字」と呼ばれることがある[5]。この範囲の漢字のうち12文字は、CJK統合漢字ブロック内に同一とみなせる(統合できる)文字が存在しないため実際にはCJK統合漢字とされている。なお、U+FA11()はU+5D0E(崎)、U+FA14()はU+6B05(欅)およびU+6989()、U+FA1F()はU+81C8(臈)にそれぞれ統合漢字ブロックの異体字を持つが、字体差が大きいとみなされ統合の範疇とされていない。逆にU+FA20()は、U+8612(蘒)と字体差が大きい(草冠と禾偏を取った部分が「亀」か「龜」かで、画数差が5画ある。)にもかかわらず統合されており、互換漢字となっている。異体字セレクタの方もU+8612を親字としてU+FA20の字形が規定されている。また、後にCJK統合漢字拡張BブロックのU+27EAFにU+FA23と同じものが登録されたが、これはU+FA23を統合漢字扱いすると決めた後に登録されたため、誤って重複登録されたことになる。
U+2F800 - U+2FA1D
台湾の文字コード規格CNS 11643はUnicodeと包摂規準が大きく異なるため、Unicodeでは統合される漢字の多数が別々に収録されている。それらの文字との互換性を確保するために収録された文字の一群。Unicode 3.1で追加。
数が多いため、BMP外(追加漢字面)に新たなブロックを作成して収録された。
U+FA30 - U+FA6A
日本の文字コード規格JIS X 0213において人名許容・康煕別掲と呼ばれる漢字の一群と互換性を確保するために収録されたもの。Unicode 3.2で追加。これらは当初から原規格であったJIS X 0208では包摂されていたため、Unicodeでもたまたま他国の規格に含まれていたものを除いて統合されていた。
U+FA70 - U+FAD9
北朝鮮の文字コード規格KPS 9566およびKPS 10721に収録されている漢字との互換性を確保するために収録された漢字の一群。Unicode 4.1で追加。
U+FA6B - U+FA6D
日本のデータ放送規格ARIB STD-B24で使われる文字コードに収録されている独自の漢字(ARIB外字)のうち、既存の漢字に包摂されていると考えられるもの[6]。Unicode 5.2で追加[7]
U+FA2E - U+FA2F
U+F900 - U+FA0Bで定義されたうち2字(U+F92CおよびU+F9B8)に誤りがあり、それを修正するためにUnicode 6.1で収録された。

コード順

さらに見る コード範囲, 内容 ...
Remove ads

CJK互換漢字ブロックにあるCJK統合漢字

CJK互換漢字ブロックにCJK統合漢字が12文字ある。

さらに見る 符号位置, 文字 ...
Remove ads

CJK互換漢字ブロックにある定義誤り

CJK互換漢字ブロックにある定義誤りの文字で削除され、再定義されている。

さらに見る 符号位置, 文字 ...

日本語処理における問題点

CJK互換漢字はその名前にもかかわらずCJK統合漢字と互換等価ではなく正準等価であり、互いに区別されることを期待してはならない[8]。このため4種類の正規化のいずれを採用してもCJK統合漢字に分解(変換)されてしまい、日本の人名処理などにおいて要求されることのある一部の人名用漢字などの区別が、Unicodeのプレーンテキスト上で保証されるとは限らない。

一部にCJK互換漢字の等価性を正準等価から互換等価に変えるべきであるという主張があるが[9]、UnicodeではJIS X 0213用の互換漢字の一部は新たに収録せず、既存のKS X 1001互換文字用の領域などに収録されていた文字を流用している。このため日本語だけの都合で等価性を変えることはできない。またUnicodeには正規化の安定性の原則があり[10]、その意味でも等価性の変更は現実的ではない。

一方濁点半濁点を合成済みの仮名文字(たとえば「が」)は、仮名文字に合成用濁点・半濁点を続けた文字の組み合わせ(たとえば「か」+「 」)と同一視する需要がある。このため単純に正規化を行わなければ済む問題でもない。

Appleはこのジレンマを解決するため、CJK互換漢字を正規化から除外した新しい正規化形式の追加をUTC(Unicode Technical Committee, Unicode技術委員会)に提案したが、否決された[11]。そこでアップルはCJK互換漢字を含む一部の文字が分解されない独自の正規化形式を定め、自社のオペレーティングシステムに導入している[12]

アドビ日本語組版処理において必要とされる可能性がある字体の区別をCJK互換漢字に頼らずUnicodeのプレーンテキスト上で維持するために、Adobe-Japan1-6の異体字集合をUnicodeの漢字字形データベース (Ideographic Variation Database) に登録申請し[13]2007年12月14日に登録された[14](詳細は異体字セレクタを参照)。

2013年9月制定のUnicode6.3ではこれとは別に基本多言語面の異体字セレクタを使用するStandardized Variantsとして、互換漢字用の異体字セレクタが登録された[15]。互換漢字ブロックおよびその補助集合にある統合漢字扱いする12字を除く1002文字全てを含んでいる。字形でなくKS X 1001の読みの違いによる重複収録やBig5の誤って重複収録されたものに対応する互換漢字も登録されている。[16]

Remove ads

JIS X 0213用の互換漢字一覧

要約
視点

以下にJIS X 0213用の互換漢字の一覧を示す。[17]

さらに見る 互換漢字, 正規化後の代表字 ...
Remove ads

日本文字(JIS X 0213以外)の互換漢字一覧

要約
視点

日本文字の文字集合の内、JIS X 0213に含まれないCJK互換漢字の一覧を以下に示す。

さらに見る 互換漢字, 正規化後の代表字 ...

Adobe-Japan1グリフの互換漢字

Adobe-Japan1文字コレクションに含まれるグリフには、UnicodeのCJK互換漢字にマッピングされているものがある。そのうちJIS X 0213、IBM拡張漢字、ARIB外字に含まれないものを以下に示す。これらはmacOSが標準搭載するヒラギノPro/ProN(と追加インストール可能な游明朝体・游ゴシック体、凸版文久明朝・凸版文久ゴシック)、Windowsが標準搭載する游明朝・游ゴシックなど、Pr5(N)/Pr6(N)相当のフォントがこの仕様に対応する。

なお漣(U+6F23)・煉(U+7149)・溺(U+6EBA)3字は、JIS X 0208-1990とJIS X 0208:1997ではいわゆる拡張新字体漣・煉・溺=JIS90字形)が示されている。この3字は2000年に表外漢字字体表に「いわゆる康熙字典体」の形で示され、2004年2月に改正されたJIS X 0213:2004(JIS2004)では例示字形がこの形に改められた(その後漣・煉は2004年9月に人名用漢字に、溺は2010年11月に常用漢字になった)。この結果JIS2004字形に準拠したフォントでは3文字の互換漢字のグリフと正規化後のグリフが一致する。下表の正規化後の代表字に添えた括弧書きはJIS90字形を意図している。

さらに見る 互換漢字, 正規化後の代表字 ...

なお、CJK互換漢字ブロックにあるCJK統合漢字の(CID+14290)(U+FA11)については、異体字の 󠄁(CID+8443)(U+FA11 U+E0101)もマッピングされている。

Remove ads

KS X 1001由来の互換漢字一覧

要約
視点

上述のようにKS X 1001には同じ形でも複数の読みを持つ268文字が重複して符号化されており、それらはUnicodeでは互換漢字として収録された。この268文字のうち、208文字は漢字語の先頭に現れる漢字の特別な読み方(頭音法則)に対応する。例えば盧武鉉元大統領の「盧」の文字は元来は「ロ」()と発音し、これはKS X 1001の54区52点 (U+76E7) になるが、語頭に限り「ノ」()と発音し、これはKS X 1001の50区38点 (U+F933) に対応する。以下にKS X 1001の互換漢字の一覧を示す[18]

さらに見る 代表字, 互換漢字 ...
Remove ads

文字コード表

CJK互換漢字(CJK Compatibility Ideographs[1][2])
Official Unicode Consortium code chart (PDF)
 0123456789ABCDEF
U+F90x
U+F91x
U+F92x
U+F93x 錄
U+F94x
U+F95x
U+F96x
U+F97x 勵
U+F98x
U+F99x
U+F9Ax
U+F9Bx 樂
U+F9Cx
U+F9Dx
U+F9Ex
U+F9Fx 刺
U+FA0x
U+FA1x
U+FA2x
U+FA3x 憎
U+FA4x
U+FA5x
U+FA6x
U+FA7x 奔
U+FA8x
U+FA9x
U+FAAx
U+FABx 謹
U+FACx
U+FADx
U+FAEx
U+FAFx
備考
1.^Unicode バージョン 10.0 現在
2.^灰色のエリアはコードポイントが割り当てられていないことを示す。
Remove ads

履歴

要約
視点

以下の表に挙げられているUnicode関連のドキュメントには、このブロックの特定の文字を定義する目的とプロセスが記録されている。

さらに見る バージョン, コードポイント ...
Remove ads

脚注

参考資料

関連項目

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads