コーパス言語学

文法記述の最初期の試みのいくつかは、宗教的または文化的に特別な意義をもつコーパスに依拠していた。たとえば、プラーティシャーキャ（英語版）は、ヴェーダに見られるサンスクリットの音声パターンを記述し、古典サンスクリットの文法であるパーニニの著作も、一部は同じコーパスの分析に基づいていた。同様に、初期のアラビア語文法家たちはクルアーンの言語に特別の注意を払った。西欧の伝統では、学者たちは聖書やその他の正典的テクストの言語を精査できるよう、コンコルダンスを作成した。

英語コーパス

現代コーパス言語学の画期となったのは、1967年に刊行されたヘンリー・クチェラ（英語版）とＷ・ネルソン・フランシス（英語版）による「現代アメリカ英語の計算機分析」である。この研究は、1961年のアメリカ英語100万語から成る、構造化されバランスのとれたブラウン・コーパスの分析に基づいていた。コーパスは多様なジャンルからの2,000のテキスト標本で構成されている。^[6]ブラウン・コーパスは、言語学研究のために設計された初のコンピュータ化コーパスであった。^[7]クチェラとフランシスはブラウン・コーパスに様々な計算分析を施し、その成果を言語学・言語教育・心理学・統計学・社会学の要素と結びつけて、多面的で豊かな大著を生み出した。さらに重要な出版物としては、ランドルフ・クワークによる1960年の「英語使用の記述に向けて」があり^[8]、そこで彼は英語用法調査コーパスを導入した。クワークのコーパスは、言語全体を代表させることを目的に構築された、最初の近代的コーパスであった。^[9]

その直後、ボストンの出版社ホートン・ミフリン・ハーコート（英語版）社は、新しい「アメリカンヘリテージ英語辞典」のために、100万語規模の三行用例データベースの提供をクチェラに依頼した。コーパス言語学を用いて編纂された最初の辞書であるアメリカンヘリテージ英語辞典は、規範的要素（言語はどうあるべきか）と記述的情報（実際にはどう使われているか）を組み合わせるという革新的な一歩を踏み出した。

他の出版社もこれに続いた。英国の出版社コリンズのコビルド英英学習辞典は、バンク・オブ・イングリッシュを用いて編纂された。英語用法調査コーパスは、クワークらによって執筆され、1985年に刊行されたコーパスに基づく文法書「英語総合文法」に用いられた。^[10]

ブラウン・コーパスは、同様の構造をもつ多数のコーパスを生み出した。たとえば、LOB コーパス（英語版）（1960年代のイギリス英語）、Kolhapur（インド英語）、Wellington（ニュージーランド英語）、Australian Corpus of English（オーストラリア英語）、Frown コーパス（1990年代初頭のアメリカ英語）、FLOB コーパス（1990年代のイギリス英語）などである。その他のコーパスは多くの言語・変種・様式（モード）を代表し、国際英語コーパス（英語版）や、1990年代に出版社、オックスフォード大学、ランカスター大学、大英図書館の共同事業として作成された、話し言葉および書き言葉の多様なテキストから成る1億語規模のコレクション英国国立コーパス（英語版）などが含まれる。現代アメリカ英語については、アメリカ国立コーパス（英語版）の作業は停滞しているが、4億語超の現代アメリカ英語コーパス（英語版）（COCA、1990年–現在）は現在ウェブインターフェース経由で利用可能である。

転写された話し言葉の最初のコンピュータ化コーパスは、1971年にモントリオール・フレンチ・プロジェクトによって構築された。^[11]これは100万語を収めており、オタワ＝ハル地域におけるシャナ・ポプラック（英語版）による、より大規模なフランス語話し言葉コーパスに着想を与えた。^[12]

多言語コーパス

1990年代、自然言語処理における統計的手法の顕著な初期成果の多くは、主として IBMリサーチの研究によって、機械翻訳の分野で生まれた。これらのシステムは、カナダ議会や欧州連合において、政府のすべての議事を全公用語へ翻訳することを法が要求した結果として作成された、既存の多言語テキスト・コーパスを活用することができた。

非ヨーロッパ諸語にもコーパスは存在する。たとえば日本では、国立国語研究所が、日本語の話し言葉・書き言葉のコーパスを多数構築している。手話のコーパスも、ビデオデータを用いて作成されている。^[13]

古代言語のコーパス

現存する言語のコーパスに加えて、古代言語のテキスト集から成るコンピュータ化コーパスも作成されている。一例として、1970年代以降に開発されてきたヘブライ語聖書のアンダーセン・フォーブス・データベースがある。そこでは、あらゆる節が、統語の最大七層を表現するグラフを用いて構文解析され、あらゆるセグメントに七つの情報フィールドのタグ付けが施されている。^[14]^[15]クルアーンアラビア語コーパス（英語版）は、クルアーンの古典アラビア語のためのアノテーション付きコーパスである。これは近年のプロジェクトで、形態素分割、品詞タグ付け、依存文法を用いた統語解析など、複数層のアノテーションを含んでいる。^[16]サンスクリットデジタルコーパスは、「サンディ分割（Sandhi‑split）されたサンスクリット文献のコーパスで、完全な形態論的・語彙的分析を備え……サンスクリット言語学および文献学におけるテキスト史的研究のために設計されている」ものである。^[17]

特定分野のコーパス

純粋な言語学的探究にとどまらず、研究者たちはコーパス言語学を他の学術・実務領域にも応用し始めている。例えば、新たに興りつつある下位分野である法とコーパス言語学（英語版）は、コーパスのデータやツールを用いて法的テキストを理解しようとする試みである。DBLPディスカバリー・データセットは計算機科学に特化し、著者所属、引用、研究分野などの関連メタデータを備えた計算機科学分野の出版物を収録している。^[18]さらに焦点を絞ったデータセットとして、計算言語学会アンソロジーの論文群と Google Scholarのメタデータを組み合わせた NLP Scholar が導入された。^[19]また、コーパスは翻訳の取り組み^[20]や外国語教育にも資する。^[21]

コーパス言語学は、データから理論への道筋をたどるための、いくつもの研究方法を生み出してきた。ワリスとネルソン(2001)^[22]は、彼らが「3A 視点」と呼ぶ、アノテーション付与、抽象化、分析を最初に提唱した。

アノテーション付与は、テキストにスキーム（注釈体系）を適用する作業から成る。アノテーションには、構造マークアップ、品詞タグ付け、構文解析、その他多数の形式が含まれる。

抽象化は、スキーム内の諸項目を、理論的に動機づけられたモデルやデータセットの項目へと対応付けすることから成る。抽象化には通常、言語学者による指向的検索が含まれるが、例えばパーサのためのルール学習などを含む場合もある。

分析は、データセットに対して統計的な検証・操作・一般化を行うことから成る。分析には、統計的評価、ルールベースの最適化、知識発見手法などが含まれ得る。

今日の多くの語彙コーパスは品詞タグ付き（POS‑tagged）である。しかし「無注釈のプレーンテキスト」を扱うコーパス言語学者であっても、顕著な語を抽出するために必然的に何らかの方法を適用する。こうした状況では、語彙検索の過程でアノテーションと抽象化が結合される。

アノテーション付きコーパスを公開する利点は、他の利用者が（コーパス管理ツール（英語版）を通じて）そのコーパス上で実験を行える点にある。構築者とは異なる関心や視点をもつ言語学者も、この成果を活用できる。データを共有することで、コーパス言語学者はコーパスを言語学的議論とさらなる研究の場として扱うことが可能になる。^[23]

コーパス言語学

概要

歴史

英語コーパス

多言語コーパス

古代言語のコーパス

特定分野のコーパス

方法

関連項目

脚注

Wikiwand - on