今昔文字鏡 - Wikiwand

今昔文字镜（日语：今昔文字鏡／こんじゃくもじきょう）是日本AINet开发、日语：文字鏡研究會／もじきょうけんきゅうかい出版发行的一款东亚文字检索软件，在Windows平台上运行。收字量庞大，最新版本收录文字达17万以上。所收字类型有诸桥辙次编《大汉和辞典》中的全部汉字、和制汉字、简化字、方言字、甲骨文、篆书等各类汉字，喃字、水族文字、悉昙文字、西夏文字、变体假名、台湾语假名等其他文字。^[1]由石川忠久担任主席的文字镜研究会^[2]最初将其字符集、相关软件及数据以CD-ROM形式由纪伊国屋书店重新分发。^[3]

事实速览 开发者, 首次发布 ...

Mojikyō
Konjaku Mojikyō
今昔文字鏡
开发者	石川忠久、古家时雄、文字镜研究会
首次发布	1.0 / 1997年7月，28年前（1997-07）
最终版本	4.0（2018年12月15日，6年前（2018-12-15））
操作系统	Microsoft Windows
文件大小	51MB
语言	日语
类型	与字型及字符映射表绑定的字符编码
许可协议	专有软件
网站	mojikyo.org

Remove ads

目标

今昔文字镜编码本为提供完整的中日韩文字符索引。它还对古代文字中的大量字符进行编码，如甲骨文、篆书、悉昙文等。它是许多字符唯一一种字符编码，其数据也常作为Unicode提案的起点。^[4]^[5]但文字镜的收录标准比Unicode宽松许多，这使得文字镜许多字符来源可疑，甚至可能是虚构的。^[6]^[7]因此，虽然许多文字镜收录的字符尚未被Unicode收录，但因各家标准不同，并非所有文字镜字符都能收录进Unicode。

组成

文字镜字体(文字鏡フォント)是一系列TrueType字体，以一个ZIP格式文件封装，每种字体约有2-5兆字节；不同字体包含的字符数也不同。^{[note 1]}还有一个EXE格式的字符映射集(文字鏡MAP)，即MOCHRMAP.EXE。这允许用户浏览文字镜字体并复制、粘贴字符。相较于常规的Windows字符映射集或KCharSelect，MOCHRMAP.EXE还能显示字符的文字镜编码。^[8]^{[note 2]}为让MOCHRMAP.EXE正常工作，须安装所有字体（于C:\Windows\Fonts）。

编码

文字镜中字符编码常用MJXXXXXX格式，类似于Unicode所用的U+XXXX格式。例如，变体假名U+1B008 𛀈 的文字镜编码为MJ090007，Unicode编码为U+1B008。^[9]两者的不同之处在于，文字镜编码为十进制，Unicode的U+码为十六进制。

自Unicode创始开始，文字镜既影响了标准，也受到了标准的影响—来自它的字形于2002年4月18日首次出现在提交给表意文字小组(IRG)的提案中，该小组负责Unicode所有中日韩统一表意文字区块^[10]^[11]^[12]。2007年5月，文字镜提供了Unicode中西夏文的编码，^[13]到2002年10月，文字镜中已经有约6千个西夏文单字。^[14]

Unicode标准的Unihan数据库将文字镜称作“日本国字集”，缩写“JK”。^[15]例如，U+2B679 𫙹（⿰魚嵐）在日语中读作blizzard（ブリザード|burizādo），其J源^{[note 3]}就等于JK-66038。所有带JK前缀的J源Unicode字符都来自文字镜。^[16]^{[note 4]}据字符编码、东亚语言专家小林剑所说，截至Unicode 13.0，Unicode中有782个表意文字来自文字镜，分布在2个Unicode区段：中日韩统一表意文字扩展区C中367个，中日韩统一表意文字扩展区E中415个。^[17]^[18]不是所有文字镜来源的Unicode字符(JK前缀J源)都跟文字镜字体相同，一些字符的形状在最终编码之前被改变了，调查显示文字镜分配的字形有误。^[7]^{[note 5]}

区段

截至2006年9月 (2006-09)^[update]，它共编码了17,4975个字符。^[14]其中有15,0366个字符属于扩展CJK文字区。^{[note 6]}^[19]许多编码的字符被认为是过时的或不必要的，且没被任何其他字符集编码，包括国际标准Unicode。每个文字镜字符都有一个独特的编号，许多字符的编号组成区段。

文字镜依传统康熙部首排序将中日韩文字放在不同区段中。含字极多的常见部首，如人部、辵部进一步依笔画数排序。

无统一性

文字镜不像Unicode那样试图搭建统一汉字集，没有尝试紧凑编码，也没有将所有常用字符维持在U+FFFF以下。

Unicode则依据中日韩汉字的出现频率分为若干块，最常见的位于基本多文种平面，^{[note 5]}较生僻的位于辅助多文种平面。

例如，人部有分别来自中国和日本的MJ054435(令)、MJ059031(令)两个字符，Unicode中均为U+4EE4 <control-4EE4> 。

许可

今昔文字镜是有限制性许可的专有软件。最初，文字镜研究所试图阻止其字符数据的滥用，并威胁那些发布字符集转换表的人。2010年7月，文字镜研究所放弃了以法律阻止多个日本用户发布转换表或将文字镜编码字符转换为Unicode或其他字符的努力。^[20]单纯的数据，有时包括字体，在许多司法管辖区被认为是共同财产，因为它们不符合原创性门槛。

然而，由于这一遗留问题，GlyphWiki从2020年起不再允许使用文字镜数据。^[21]

书写系统

至今存活

死文字

历史

今昔文字镜开发于1985年，1996年电子化^[22]。1997年7月，大修馆书店以CD-ROM形式发布其1.0版本^[23]，当时只收有不到8万个字。1999年，在TrueType上搭载的2.0版本发售。

2001年收录西夏文字，并发布“今昔文字镜　单汉字10万字版”，收录字数约102,300。同年收录楷书。“文字镜Web”网站也开始出现。

2006年发布“今昔文字镜　单汉字15万字版”（4.0版），发布专业版“Indexfont Ver. 1.0”。^[24]

2008年3月末“文字镜Web”关闭。^[25]6月初“今昔文字镜 UnicodeEdition”发售。^[26]

2010年3月15日，发布专业版“Indexfont Ver. 2.0”。^[27]

2015年，开发者之一、社长古家时雄去世，改由石川忠久接手，于次年散会。为作纪念，文字镜最新版开始作为免费软件上传到互联网档案馆。^[28]

至今(2017年)，今昔文字镜的网络版都还在重新构筑当中。^[29]

2018年12月15日，4.0版本发布。次日，石川忠久宣布此为文字镜最终版。

Remove ads

注释

[N 1]
自官网 Archive.today的存档，存档日期2019-12-29下载MojikyoCmap400ALL49TTF.7z
[N 2]
见官网 Archive.today的存档，存档日期2019-12-29截图
[N 3]
这是Unihan数据库中一个行名，此处⟨J⟩为“日本来源文字”缩写。行名全称为kIRG_JSource。Unihan架构中共有9个此种来源。
[N 4]
也有其他J源前缀，如J4表示其来自JIS X 0213:2004。
[N 5]
当然，大型表意文字集的错误并不少见。这种错误甚至会发生在资金充足的政府制作的集合中，例如日本产业标准调查会JIS X 0208的出处不明的汉字。所有这些幽灵汉字(如彁)虽不是真正的汉字，却也能进入Unicode。
[N 6]
对朝鲜、韩国指朝鲜汉字，对越南指喃字。

参考文献

Loading content...

外部链接

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads