トップQs
タイムライン
チャット
視点
日本語コーパス
ウィキペディアから
Remove ads
日本語コーパス(にほんごコーパス)は、言語学(コーパス言語学)や自然言語処理の研究・開発のために、日本語の文章を集積したもの(コーパス)である。
歴史
日本語学においては1948年創設の国立国語研究所の主導により、1950年代より情報カードによる用例収集をベースとする語彙調査がおこなわれてきた。宮島達夫の論じるように、これは電算化以前のコーパスとみなすこともできる[1]。その後1960年代後半から1970年代にかけ、国立国語研究所では電子化した日本語資料を用いた量的研究もおこなわれるようになったが、ここで作成されたコーパスは外部に公開されることもなく、学界に大きな影響を与えることもなかった[2]。
1990年代にはパーソナルコンピュータの高性能化・普及、電子出版の登場にともない、個人研究者による日本語の量的研究がはじまった[2]。1997年に公開された「京都大学テキストコーパス(京大コーパス)」は『毎日新聞』の1996年のテキストデータ2万文に形態素・構文情報を付与したもので[3]、山崎誠によればこれが日本語研究においてはじめて作られた「コーパス」の名前がつくデータセットである。同コーパスはタグのみを公開し、実際の利用には新聞記事を別に購入する必要があった。同コーパスはどちらかといえば自然言語処理の文脈でのみ利用され、研究費が比較的潤沢ではない人文系日本語研究においては『新潮文庫の100冊』がコーパスの代用として利用された[4]。1999年から2003年にかけて、通信総合研究所・東京工業大学・国立国語研究所により「日本語話し言葉コーパス」が開発された[5]。同コーパスは2004年に公開された[6]。
2005年には国立国語研究所により雑誌『太陽』をもととする「太陽コーパス」が公開された[7]。国立国語研究所は2005年、「日本語話し言葉コーパス」「太陽コーパス」の開発成功を経て、明治期から現代に至る日本語の全体像を把握するためのコーパスを構築する「KOTONOHA計画」を立案・計画した[8]。2006年には国立国語研究所により「ブリティッシュ・ナショナル・コーパス」に倣うかたちで、1億語単位の均衡コーパスの構築がはじめられた。同計画を通して構築された「現代日本語書き言葉均衡コーパス(Balanced Corpus of Contemporary Written Japanese、BCCWJ)」は、2011年に完成し、一般公開された[9]。BCCWJの公開は日本語学界に大きな影響を与え、特に日本語学・日本語教育分野において、コーパスを利用した言語研究は急増した[4]。
Remove ads
出典
参考文献
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads