热门问题
时间线
聊天
视角
幽靈漢字
在JIS X 0208所收錄的漢字中,字形來源不明的漢字 来自维基百科,自由的百科全书
Remove ads
幽靈漢字(日语:幽霊漢字/ゆうれいかんじ Yūrē kanji */?),又稱幽靈文字(日语:幽霊文字/ゆうれいもじ Yūrē moji)是JIS基本漢字所收錄的出處不明漢字的總称。
本條目包含JIS X 0213:2004編碼收錄的文字,相關文字需在支持JIS X 0213:2004的環境下才能正確顯示。(詳細)
概述
1978年,當時的通商產業省制定的JIS C 6226(後來的JIS X 0208)中規定了JIS第1、第2水準漢字6349字。該漢字集稱為「JIS基本漢字」。當時以下列4個漢字表為典據,採用了其中的漢字:[1]:269。
- 標準碼用漢字表(試案)(標準コード用漢字表(試案)):情報處理學會漢字碼委員会(1971年)
- 國土行政區劃總覽(国土行政区画総覧):國土地理協會(1951年初版,经多次改版。1972年版已散佚)
- 日本生命收容人名漢字(日本生命収容人名漢字):日本生命(1973年,現已散佚)
- 行政情報處理用基本漢字(行政情報処理用基本漢字):行政管理廳(1975年)
但制定JIS基本漢字時,由於規格未要求明示各文字的典據,JIS基本漢字中出現了不少不僅音、義、歷史,而且連用例都不明確的文字,即所謂的「幽靈文字」,大約有60字,一說超過100字。
垉(52区21点) | 垈(52区18点) | 墸(52区55点) |
壥(52区63点) | 妛(54区12点) | 岾(54区19点) |
彁(55区27点) | 恷(55区78点) | 挧(57区43点) |
暃(58区83点) | 椦(59区91点) | 橸(60区81点) |
汢(61区73点) | 熕(63区80点) | 碵(66区83点) |
穃(67区46点) | 粐(68区68点) | 粭(68区70点) |
粫(68区72点) | 糘(68区84点) | 膤(71区19点) |
蟐(74区12点) | 袮(74区57点) | 軅(77区32点) |
鍄(78区93点) | 閠(79区64点) | 靹(80区56点) |
駲(81区50点) | 鵈(82区94点) |
最具代表性的有「妛」、「彁」等字,不僅《康熙字典》中未收錄,追加了国字、新字体等的諸橋轍次的《大漢和辭典》(2000年補充了含部分JIS基本漢字的《補卷》除外)中也沒有記載。
基於此情況,1997年制定改定規格時,其原案作成委員会以委員長芝野耕司和國立國語研究所的笹原宏之等人為中心,調查了1978年規格的原案編制時參考的文獻。其結果是原本被視為幽靈漢字的,多數為地名等實際有使用的漢字。
根據調查,早於1978年規格原案編制,行政管理廳在1974年整理包括上述1-3的8個漢字表並編制了《以行政情報處理用標準漢字選定為目標的漢字使用頻度及對應分析結果》(行政情報処理用標準漢字選定のための漢字の使用頻度および対応分析結果,下稱「對應分析結果」),其中漢字表和原典均有記載。選定JIS基本漢字時參照的是對應分析結果而非原典,調查發現其中包含了很多來源於《國土行政區畫總覽》《日本生命收容人名漢字》的幽靈文字。特別是《日本生命收容人名漢字》在第1次規格的原案編制時,原典已經佚失,因此被批評為內容存在缺陷。[2]在此結果基礎上,改定規格的委員會用校正履歷復原了《國土行政區畫總覽》1972年版,並逐頁校覈其中出現的漢字。此外,他們以日本電信電話(NTT)和日本電信電話公社(電電公社)的電話簿資料庫為名用例,取代現已不存的《日本生命收容人名漢字》,進行比較調查,並以30本以上的古今的字書為調查對象,進行徹底的文獻參照。
另一方面,經過嚴密的調查後,仍有12個漢字來源不明。儘管多數來源不明的漢字也發現有各種線索,例如和古字書同形衝突的文字,或推測為資料傳抄時出錯,但是其中仍有「彁」這一字無任何線索[1]:291。因此,現時真正的幽靈漢字為此12字,狹義上則只有「彁」一字。
Remove ads
調查結果
前述的笹原宏之的調查結果整理收錄於JIS X 0208:1997附屬書7《区点位置詳說》中。其中有四个关于幽灵汉字的分类:
- 可参考原典(原典典拠):可參照首次標準化時的資料來源,或參照其所依據的資料來源。共72字。
- 来源不明(典拠不詳):在首次標準化時标注的資料來源查无此字,或資料來源无法使用。共9字。
- 不明:首次標準化時的資料來源不明,在非参考的字书、文献中有偶然一致例。共2字。
- 无法同定:首次標準化時的資料來源不明,查无任何偶然一致例。仅有彁一字。
- 可能為來源資料中存在但規格中未收錄文字之誤寫的文字
Remove ads
收錄於辭典
JIS漢字標準制定後,一些新出版的辭典以JIS基本漢字全覆蓋為編纂方針。但由於JIS基本漢字中收錄的幽靈文字缺少典據,編纂時的處理方式各異,常見方式包括以下幾種。
- 附會套用讀音
- 對於已實裝JIS基本漢字的設備,儘管是幽靈漢字,為避免支援但無法輸入的尷尬情況,存在權宜地將其解釋為形声字並賦予「音讀」的做法[5]。有鑑於此,一些辭典也收錄了這些套用的讀法。例如「彁=カ(ka)・セイ(sei)」、「椦=ケン(ken)」等。笹原宏之基於日本電子工業振興協会(今電子情報技術產業協會)發佈的調查報告(1982年)以及NEC(1982年)、日本IBM(1983年)的發行資料,批評這些讀音可能是附會套用的[6]。
- 視為形似文字的異體字
- 有辭典將「駲」作為「馴」的異體字[7]、將「軅」作為「軈」的異體字[8]等。但是這些辭典對該處理方法並未列出依據。
- 對於「妛」(上部為「山」下加一橫「一」),由於《大漢和辞典》、《康熙字典》收有非常近似的字「妛」(上部為「㞢」),有將其列為後者的異體字的做法[9]。這一點也在的JIS X 0208:1997的調查中作為偶然一致例來介紹。此外,Unicode將該二字統一到了一個碼位上。
- 解釋為偶然一致的別字
- 也有將「槞」解釋為「櫳」的異體字、將「鵈」解釋為「とび」意的国字的做法。這些也已在JIS X 0208:1997調查中作為偶然一致例介紹。儘管這很可能並非標準制定時的收錄意圖,但這種處理方式不侷限於幽靈文字的範疇,而是着重於收錄文字的解釋的通用性。
- 解釋為音義未詳字
- 直接解釋為讀音、意義不明。
Remove ads
殘留的原因
笹原宏之等人對幽靈文字的調查是1997年的JIS漢字改正工作中的一環。JIS漢字改正曾於1983年的「83JIS改正」中,對字形、文字編碼作出大幅變更,引起了嚴重的混亂,而本次改正則不希望重蹈覆轍。另外,由於JIS漢字已經收錄於Unicode,此時對JIS的變更已經不僅是日本國內的問題。結果,幽靈文字不僅在JIS基本漢字中被保留,也可以通过计算机字体於全世界的電腦中使用。
用例
原本來源不明的文字,即使弄清了其正字、字義,使用頻率依然不高。實際上,被判定為錯別字的漢字有時會用來代用本字,而至今仍來源不明的字有時會用來代用字形相似的文字,作為異字、代替字、俗字而存在。
另外,有人利用幽靈文字「來源不明」「讀法不明」的特性,將其作為暗号文書,即所謂「忍者文字」。
2011年,《朝日新聞》記者比留间直和在自社數據庫以幽靈文字「彁」爲關鍵字檢索,发现一條大正12年(1923)2月23日的新聞,其中出現「埼玉自彁会」文本[10]。在掃描圖像更加清晰的「朝日新聞〈復刻版〉」中檢索同一新聞,可見原文本正是「埼玉自彊會」,而在舊版低分辨率掃描圖像中形似「彁」,《朝日新聞》據此更正了檢索系統文本。文章中还宣称,笹原宏之曾作出「『彁』可能是『彊』(「強」的異體字)印刷模糊而被误认」的推測,但来源不明。在笹原参与编撰的JIS X 0208:1997的附属书7中,对彁作为彊的误字的解释是「草书误楷化」,而不是比留间直和宣称的「印刷模糊」。[注释 3][1]:291,292
Remove ads
幽灵汉字在汉语中
“幽灵汉字”是日语中的说法,不少幽灵汉字在汉语中有意义,如:
- 妛:古同“嗤”,见《康熙字典》。
以下汉字仍无出处:
- 暃
- 蟐
- 駲
注释
參考資料
參見
外部連結
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads