热门问题
时间线
聊天
视角
今昔文字镜
日本文字检索软件 来自维基百科,自由的百科全书
Remove ads
今昔文字镜(日语:今昔文字鏡/こんじゃくもじきょう)是日本AINet开发、日语:文字鏡研究會/もじきょうけんきゅうかい出版发行的一款东亚文字检索软件,在Windows平台上运行。收字量庞大,最新版本收录文字达17万以上。所收字类型有诸桥辙次编《大汉和辞典》中的全部汉字、和制汉字、简化字、方言字、甲骨文、篆书等各类汉字,喃字、水族文字、悉昙文字、西夏文字、变体假名、台湾语假名等其他文字。[1]由石川忠久担任主席的文字镜研究会[2]最初将其字符集、相关软件及数据以CD-ROM形式由纪伊国屋书店重新分发。[3]
Remove ads
目标
今昔文字镜编码本为提供完整的中日韩文字符索引。它还对古代文字中的大量字符进行编码,如甲骨文、篆书、悉昙文等。它是许多字符唯一一种字符编码,其数据也常作为Unicode提案的起点。[4][5]但文字镜的收录标准比Unicode宽松许多,这使得文字镜许多字符来源可疑,甚至可能是虚构的。[6][7]因此,虽然许多文字镜收录的字符尚未被Unicode收录,但因各家标准不同,并非所有文字镜字符都能收录进Unicode。
组成
文字镜字体(文字鏡フォント)是一系列TrueType字体,以一个ZIP格式文件封装,每种字体约有2-5兆字节;不同字体包含的字符数也不同。[note 1]还有一个EXE格式的字符映射集(文字鏡MAP),即MOCHRMAP.EXE。这允许用户浏览文字镜字体并复制、粘贴字符。相较于常规的Windows字符映射集或KCharSelect,MOCHRMAP.EXE还能显示字符的文字镜编码。[8][note 2]为让MOCHRMAP.EXE正常工作,须安装所有字体(于C:\Windows\Fonts)。
编码
文字镜中字符编码常用MJXXXXXX格式,类似于Unicode所用的U+XXXX格式。例如,变体假名U+1B008 𛀈 的文字镜编码为MJ090007,Unicode编码为U+1B008。[9]两者的不同之处在于,文字镜编码为十进制,Unicode的U+码为十六进制。
自Unicode创始开始,文字镜既影响了标准,也受到了标准的影响—来自它的字形于2002年4月18日首次出现在提交给表意文字小组(IRG)的提案中,该小组负责Unicode所有中日韩统一表意文字区块[10][11][12]。2007年5月,文字镜提供了Unicode中西夏文的编码,[13]到2002年10月,文字镜中已经有约6千个西夏文单字。[14]
Unicode标准的Unihan数据库将文字镜称作“日本国字集”,缩写“JK”。[15]例如,U+2B679 𫙹 (⿰魚嵐)在日语中读作blizzard(ブリザード|burizādo),其J源[note 3]就等于JK-66038。所有带JK前缀的J源Unicode字符都来自文字镜。[16][note 4]据字符编码、东亚语言专家小林剑所说,截至Unicode 13.0,Unicode中有782个表意文字来自文字镜,分布在2个Unicode区段:中日韩统一表意文字扩展区C中367个,中日韩统一表意文字扩展区E中415个。[17][18]不是所有文字镜来源的Unicode字符(JK前缀J源)都跟文字镜字体相同,一些字符的形状在最终编码之前被改变了,调查显示文字镜分配的字形有误。[7][note 5]
截至2006年9月[update],它共编码了17,4975个字符。[14]其中有15,0366个字符属于扩展CJK文字区。[note 6][19]许多编码的字符被认为是过时的或不必要的,且没被任何其他字符集编码,包括国际标准Unicode。每个文字镜字符都有一个独特的编号,许多字符的编号组成区段。
文字镜不像Unicode那样试图搭建统一汉字集,没有尝试紧凑编码,也没有将所有常用字符维持在U+FFFF以下。
Unicode则依据中日韩汉字的出现频率分为若干块,最常见的位于基本多文种平面,[note 5]较生僻的位于辅助多文种平面。
例如,人部有分别来自中国和日本的MJ054435(令)、MJ059031(令)两个字符,Unicode中均为U+4EE4 <control-4EE4> 。
许可
今昔文字镜是有限制性许可的专有软件。最初,文字镜研究所试图阻止其字符数据的滥用,并威胁那些发布字符集转换表的人。2010年7月,文字镜研究所放弃了以法律阻止多个日本用户发布转换表或将文字镜编码字符转换为Unicode或其他字符的努力。[20]单纯的数据,有时包括字体,在许多司法管辖区被认为是共同财产,因为它们不符合原创性门槛。
然而,由于这一遗留问题,GlyphWiki从2020年起不再允许使用文字镜数据。[21]
书写系统
历史
今昔文字镜开发于1985年,1996年电子化[22]。1997年7月,大修馆书店以CD-ROM形式发布其1.0版本[23],当时只收有不到8万个字。1999年,在TrueType上搭载的2.0版本发售。
2001年收录西夏文字,并发布“今昔文字镜 单汉字10万字版”,收录字数约102,300。同年收录楷书。“文字镜Web”网站也开始出现。
2006年发布“今昔文字镜 单汉字15万字版”(4.0版),发布专业版“Indexfont Ver. 1.0”。[24]
2008年3月末“文字镜Web”关闭。[25]6月初“今昔文字镜 UnicodeEdition”发售。[26]
2010年3月15日,发布专业版“Indexfont Ver. 2.0”。[27]
2015年,开发者之一、社长古家时雄去世,改由石川忠久接手,于次年散会。为作纪念,文字镜最新版开始作为免费软件上传到互联网档案馆。[28]
至今(2017年),今昔文字镜的网络版都还在重新构筑当中。[29]
2018年12月15日,4.0版本发布。次日,石川忠久宣布此为文字镜最终版。
Remove ads
注释
参考文献
外部链接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads