热门问题
时间线
聊天
视角
幽灵汉字
在JIS X 0208所收錄的漢字中,字形來源不明的漢字 来自维基百科,自由的百科全书
Remove ads
幽灵汉字(日语:幽霊漢字/ゆうれいかんじ Yūrē kanji */?),又称幽灵文字(日语:幽霊文字/ゆうれいもじ Yūrē moji)是JIS基本汉字所收录的出处不明汉字的总称。
本条目包含JIS X 0213:2004编码收录的文字,相关文字需在支持JIS X 0213:2004的环境下才能正确显示。(详细)
概述
1978年,当时的通商产业省制定的JIS C 6226(后来的JIS X 0208)中规定了JIS第1、第2水准汉字6349字。该汉字集称为“JIS基本汉字”。当时以下列4个汉字表为典据,采用了其中的汉字:[1]:269。
- 标准码用汉字表(试案)(標準コード用漢字表(試案)):情报处理学会汉字码委员会(1971年)
- 国土行政区划总览(国土行政区画総覧):国土地理协会(1951年初版,经多次改版。1972年版已散佚)
- 日本生命收容人名汉字(日本生命収容人名漢字):日本生命(1973年,现已散佚)
- 行政情报处理用基本汉字(行政情報処理用基本漢字):行政管理厅(1975年)
但制定JIS基本汉字时,由于规格未要求明示各文字的典据,JIS基本汉字中出现了不少不仅音、义、历史,而且连用例都不明确的文字,即所谓的“幽灵文字”,大约有60字,一说超过100字。
垉(52区21点) | 垈(52区18点) | 墸(52区55点) |
壥(52区63点) | 妛(54区12点) | 岾(54区19点) |
彁(55区27点) | 恷(55区78点) | 挧(57区43点) |
暃(58区83点) | 椦(59区91点) | 橸(60区81点) |
汢(61区73点) | 熕(63区80点) | 碵(66区83点) |
穃(67区46点) | 粐(68区68点) | 粭(68区70点) |
粫(68区72点) | 糘(68区84点) | 膤(71区19点) |
蟐(74区12点) | 袮(74区57点) | 軅(77区32点) |
鍄(78区93点) | 閠(79区64点) | 靹(80区56点) |
駲(81区50点) | 鵈(82区94点) |
最具代表性的有“妛”、“彁”等字,不仅《康熙字典》中未收录,追加了国字、新字体等的诸桥辙次的《大汉和辞典》(2000年补充了含部分JIS基本汉字的《补卷》除外)中也没有记载。
基于此情况,1997年制定改定规格时,其原案作成委员会以委员长芝野耕司和国立国语研究所的笹原宏之等人为中心,调查了1978年规格的原案编制时参考的文献。其结果是原本被视为幽灵汉字的,多数为地名等实际有使用的汉字。
根据调查,早于1978年规格原案编制,行政管理厅在1974年整理包括上述1-3的8个汉字表并编制了《以行政情报处理用标准汉字选定为目标的汉字使用频度及对应分析结果》(行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果,下称“对应分析结果”),其中汉字表和原典均有记载。选定JIS基本汉字时参照的是对应分析结果而非原典,调查发现其中包含了很多来源于《国土行政区画总览》《日本生命收容人名汉字》的幽灵文字。特别是《日本生命收容人名汉字》在第1次规格的原案编制时,原典已经佚失,因此被批评为内容存在缺陷。[2]在此结果基础上,改定规格的委员会用校正履历复原了《国土行政区画总览》1972年版,并逐页校核其中出现的汉字。此外,他们以日本电信电话(NTT)和日本电信电话公社(电电公社)的电话簿数据库为名用例,取代现已不存的《日本生命收容人名汉字》,进行比较调查,并以30本以上的古今的字书为调查对象,进行彻底的文献参照。
另一方面,经过严密的调查后,仍有12个汉字来源不明。尽管多数来源不明的汉字也发现有各种线索,例如和古字书同形冲突的文字,或推测为资料传抄时出错,但是其中仍有“彁”这一字无任何线索[1]:291。因此,现时真正的幽灵汉字为此12字,狭义上则只有“彁”一字。
Remove ads
调查结果
前述的笹原宏之的调查结果整理收录于JIS X 0208:1997附属书7《区点位置详说》中。其中有四个关于幽灵汉字的分类:
- 可参考原典(原典典拠):可参照首次标准化时的资料来源,或参照其所依据的资料来源。共72字。
- 来源不明(典拠不详):在首次标准化时标注的资料来源查无此字,或资料来源无法使用。共9字。
- 不明:首次标准化时的资料来源不明,在非参考的字书、文献中有偶然一致例。共2字。
- 无法同定:首次标准化时的资料来源不明,查无任何偶然一致例。仅有彁一字。
- 可能为来源资料中存在但规格中未收录文字之误写的文字
Remove ads
收录于辞典
JIS汉字标准制定后,一些新出版的辞典以JIS基本汉字全覆盖为编纂方针。但由于JIS基本汉字中收录的幽灵文字缺少典据,编纂时的处理方式各异,常见方式包括以下几种。
- 附会套用读音
- 对于已实装JIS基本汉字的设备,尽管是幽灵汉字,为避免支持但无法输入的尴尬情况,存在权宜地将其解释为形声字并赋予“音读”的做法[5]。有鉴于此,一些辞典也收录了这些套用的读法。例如“彁=カ(ka)・セイ(sei)”、“椦=ケン(ken)”等。笹原宏之基于日本电子工业振兴协会(今电子情报技术产业协会)发布的调查报告(1982年)以及NEC(1982年)、日本IBM(1983年)的发行资料,批评这些读音可能是附会套用的[6]。
- 视为形似文字的异体字
- 有辞典将“駲”作为“馴”的异体字[7]、将“軅”作为“軈”的异体字[8]等。但是这些辞典对该处理方法并未列出依据。
- 对于“妛”(上部为“山”下加一横“一”),由于《大汉和辞典》、《康熙字典》收有非常近似的字“妛”(上部为“㞢”),有将其列为后者的异体字的做法[9]。这一点也在的JIS X 0208:1997的调查中作为偶然一致例来介绍。此外,Unicode将该二字统一到了一个码位上。
- 解释为偶然一致的别字
- 也有将“槞”解释为“櫳”的异体字、将“鵈”解释为“とび”意的国字的做法。这些也已在JIS X 0208:1997调查中作为偶然一致例介绍。尽管这很可能并非标准制定时的收录意图,但这种处理方式不局限于幽灵文字的范畴,而是着重于收录文字的解释的通用性。
- 解释为音义未详字
- 直接解释为读音、意义不明。
Remove ads
残留的原因
笹原宏之等人对幽灵文字的调查是1997年的JIS汉字改正工作中的一环。JIS汉字改正曾于1983年的“83JIS改正”中,对字形、文字编码作出大幅变更,引起了严重的混乱,而本次改正则不希望重蹈覆辙。另外,由于JIS汉字已经收录于Unicode,此时对JIS的变更已经不仅是日本国内的问题。结果,幽灵文字不仅在JIS基本汉字中被保留,也可以通过计算机字体于全世界的电脑中使用。
用例
原本来源不明的文字,即使弄清了其正字、字义,使用频率依然不高。实际上,被判定为错别字的汉字有时会用来代用本字,而至今仍来源不明的字有时会用来代用字形相似的文字,作为异字、代替字、俗字而存在。
另外,有人利用幽灵文字“来源不明”“读法不明”的特性,将其作为暗号文书,即所谓“忍者文字”。
2011年,《朝日新闻》记者比留间直和在自社数据库以幽灵文字“彁”为关键字检索,发现一条大正12年(1923)2月23日的新闻,其中出现“埼玉自彁会”文本[10]。在扫描图像更加清晰的“朝日新闻〈复刻版〉”中检索同一新闻,可见原文本正是“埼玉自彊會”,而在旧版低分辨率扫描图像中形似“彁”,《朝日新闻》据此更正了检索系统文本。文章中还宣称,笹原宏之曾作出“‘彁’可能是‘彊’(“强”的异体字)印刷模糊而被误认”的推测,但来源不明。在笹原参与编撰的JIS X 0208:1997的附属书7中,对彁作为彊的误字的解释是“草书误楷化”,而不是比留间直和宣称的“印刷模糊”。[注释 3][1]:291,292
Remove ads
幽灵汉字在汉语中
“幽灵汉字”是日语中的说法,不少幽灵汉字在汉语中有意义,如:
- 妛:古同“嗤”,见《康熙字典》。
以下汉字仍无出处:
- 暃
- 蟐
- 駲
注释
参考资料
参见
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads