トップQs
タイムライン
チャット
視点
言語資源
ウィキペディアから
Remove ads
言語資源(げんごしげん、英: language resource)ないし言語リソース(げんごリソース)とは[1]、自然言語の研究に用いる各種のリソースのことである[2]。自然言語処理の研究・開発の基盤となる[1]。狭義には辞書やコーパスといった静的な言語データのみを指すが、広義にはこれらを解析するツールも含む[3]。
定義
狭義の言語資源には、自然言語処理に用いられる辞書やデータセット、コーパスといったものが含まれる[4][3]。自然言語処理研究者の黒橋禎夫は、コーパスおよびコーパスにつけられた注釈(アノテーション)に加え、知識グラフや、自然言語処理タスクの問題と解答のペアの集合といったものも言語資源として例示している[1]。
言語工学の標準に関して諮問にあたる専門家グループ/言語工学国際規格(Expert Advisory Group on Language Engineering Standards/International Standards for Language Engineering、EAGLES/ISLE)のペーター・ヴィッテンベルク(Peter Wittenburg)らは、言語資源を「人間のコミュニケーション行為を、何らかの形で記録または記述したデータベース」と定義している[5]。また、ヨーロッパ言語資源協会(European Language Resource Association、ELRA)は、言語資源を「自然言語および音声アルゴリズムまたはシステムの構築・改善・評価に使用される、機械で読み取り可能な形式の音声または言語データと記述のセット」と定義している[6]。
言語資源は、必ずしも電子的記録であるとは限らない。たとえば、オープン言語アーカイブコミュニティ(OLAC)は、出版されたモノグラフや、情報カードが収められた箱のようなものも言語資源の一部であるとしている[7]。文化庁・文化審議会国語分科会は、言語資料は「電子化されているものもされていないものも含む、書き言葉や話し言葉など多様な言語資料の総体」と定義し、「言語資源のうち電子化されたもの」であるところの「デジタル言語資料」と区別している[8]。さらに、より広義には、こうした静的な資料を解析するツールも言語資源の一部とみなされる[3]。OLACは言語データに加え、言語データの作成・表示・検索に用いるデジタル資源および、これらの資源の利用にあたっての助言も言語資源であると定義している[7]。
また、これらとやや異なる用法として、社会資源としての言語自体及びその社会的・文化的な価値のことをこのように呼び表すこともある[4][9]。小田格は「言語資源」のこの用法は、先述したような言語資源の定義を拡張したものであると論じ、広義の言語資源保護のため、狭義の言語資源整備を行う、中華人民共和国の「中国言語資源保護プロジェクト」を紹介している[4]。
Remove ads
構築と利用
辞典や全集、録音・録画資料といった、言語に関するあらゆる記録は言語資源の一部であるが、言語研究・言語政策・言語教育などにおいては、デジタル化された言語資源が有用となる[8]。自然言語処理において言語資源は、たとえば言語モデルの構築や、品詞タグ付けといった分類問題の学習に応用することができる[10]。ELRAは、言語資源はおもにテキスト検索や機械翻訳といったシステムの開発、あるいは既存のシステムの評価に用いられるとまとめている[6]。
黎明期の自然言語処理においては、研究者は言語の仕組みを内省することにより解析手法を考案し、小さな評価データでその有効性を議論していた。しかし、大規模な言語資源にもとづくデータ駆動的なアプローチは、こうした研究手法よりも客観的かつ再現性のある形で言語および言語表現の多様性を扱うことができた[1]。こうした趨勢を背景に、ヨーロッパではELRA、北米では言語データコンソーシアム(LDC)、日本では言語資源協会(GSK)といった組織が、言語資源の整備を推し進めた[3]。日本においてはこうした基幹的言語資源整備の一環として、2011年に国立国語研究所により現代日本語書き言葉均衡コーパスが公開された[11][12]。OLACは、言語資源のカタログを作成することを目標としている[13]。言語資源の記述内容・形式に関しては、国際標準化機構(ISO)の部会であるTC37/SC4が議論をおこなっており、複数の規格が制定・検討されている[13][14]。
Remove ads
出典
参考文献
関連項目
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads