Google Books Ngram Viewer

Google Books Ngram Viewerは、Googleのテキストコーパスから任意の文字列の出現頻度をチャート化し出力する、オンライン検索エンジン。出現頻度検索には1500年から2019年^[1]^[2]^[3]^[4]の刊行物から生成した各年ごとのnグラム（英語版）が用いられ、ソースとなるコーパスは英語、簡体中国語、フランス語、ドイツ語、ヘブライ語、イタリア語、ロシア語、スペイン語等の多言語に対応している^[1]^[2]^[5]。また、アメリカ英語、イギリス英語、英語フィクション等の分野特化型英語コーパスも使用できる^[6]。

このプログラムは、スペルミスや解釈不能文字列も含めて単語や句を検索することができる^[5]。nグラムは選択されたコーパス内のテキストと照合され、40以上の文献でマッチがある場合、グラフとして表示される^[6]。検索エンジンは品詞とワイルドカードにも対応しており^[6]、研究現場でも恒常的に活用されている^[7]^[8]。

Remove ads

歴史

開発過程において、Googleはハーバード大学の研究者であるジャン＝バティスタ・ミシェル（英: Jean-Baptiste Michel）とエレズ・リーバーマン・エイデンの2名とチームを組み、2010年 12月16日に人知れずプログラムを一般公開した^[2]^[9]。同日サイエンス誌に掲載された論文の共著者であるスティーブン・ピンカー（英: Steven Pinker）は、本プログラムの公開前は「言語変化率の数値化は、この目的に即したデータベースの欠如により困難であった」と述べている^[1]^[10]。Google Books Ngram Viewerは人文科学領域における量的研究の可能性拡大を視野に入れ開発され、そのデータベースは、一般入手が可能な520万の文献から集められた、5000億語ものデータが公開当初から含まれていた^[2]^[3]^[9]。

学者による使用を想定していた一方で、Google Books Ngram Viewerは事実上、コンピューターを有する人物であれば誰でも単語・句の使用率の通時的変化をグラフ化し、参照することを可能にした。ニューヨーク・タイムズ紙の取材に際しリーバーマンは、「子どもでも歴史上の文化的傾向が把握できるようにすることを目標にした」と語っている^[9]。上述のサイエンス誌の論文内で、リーバーマンおよび共著者は、デジタル化されたテキストを参照し大量のデータ分析を行う手法を「カルチュロミクス（英語版）」と呼んでいる^[1]^[9]。

Remove ads

使用法

検索対象の文字列を、カンマで区切って入力する。区切られた検索文字列のそれぞれは、n-gramとしてデータベース内で検索される（例として、"nursery school" という文字列であれば2-gramまたはバイグラム（英: bigram）となる）^[6]。Ngram Viewerは、このように指定されたクエリ文字列ごとに、プロットされた折れ線グラフを生成する。ただし、Ngramデータベースの制限により、グラフが適切に生成されるには40以上の文献内で対象文字列がマッチする必要がある^[6]。

Ngram Viewerは高度な検索機能も備えており、ワイルドカード検索（英: wildcard search）、屈折検索（英: inflection search）、大小文字非区分検索（英: case-insensitive search）、品詞タグ（英: part-of-speech tags）、およびnグラム合成（英: ngram compositions）をサポートしている^[6]：

ワイルドカード検索

語の代わりに * のワイルドカードを使用すると、正規化された文字列に対して検索が行われ、結果の上位10件を取得することができる（例として、"University of *" は "University of California" や "University of Chicago" などに、10項目までマッチする）^[6]。

屈折検索

特定のnグラムに _INF の接尾辞を加えると、文字の屈折（英: inflection）を扱うことができる。例として、"book_INF" は "book"、"booked"、"books"、"booking" などにマッチする。ただし、この接尾辞は1回のクエリで1回までしか使用できない^[6]。

大小文字非区分検索

クエリボックスの右側のチェックボックスをチェックすると、デフォルトの大小文字区分（英: case-sensitive）挙動を上書きし、大小文字非区分（英: case-insensitive）で検索を行うことができる^[6]。

品詞タグ

_NOUN や _VERB などの特定の接尾辞を使用すると、nグラムの品詞を指定することができる（例："tackle_NOUN"、"tackle_VERB"）。これらの接尾辞の最後にアンダースコアを付け加えると（例："_NOUN_"）、当該特殊文字を接尾辞ではなく変数として使用することができる^[6]。

Nグラム合成

+、-、*、/、または : の演算子を使用すると、nグラムを特定の方式で掛け合わせることができる。例として、"game+sport+play" は "game"、"sport"、"play" の総生起数の和からなるグラフを生成する^[6]。

Remove ads

制限

Ngram Viewerに使用されているデータセットには一定の問題もあり、不正確なOCRに基づくデータへの依存や、日付や分類が誤っているテキストの多さなどが挙げられる^[11]^[12]。これらの不備、およびデータの偏りコントロールがされていない^[13]（例として、科学文献の量が大幅に増えていることにより、他の用語の出現頻度が減っているという錯覚を生じさせる）ことなどに起因し、このコーパスを言語の研究や理論のテストに使用する際は注意が必要である^[14]。また当該データセットは、著作権上の懸念から出版日、著者、長さ、ジャンル等のメタデータが一切含まれていないため、一般的な言語変化や文化的変化が結果に反映されない可能性があり、この場合Ngram Viewerは変化を「示唆」することはできても「確約」することはできないという欠点がある^[15]。

なお、上述のような課題を視野に入れたうえで、Ngram Viewerから得たデータを研究に使用するためのガイドラインも学者により提案されている^[16]。

OCRの問題

光学文字認識（英: optical character recognition; OCR）は必ずしも信頼できるものではなく、スキャンの結果が正しく反映されない文字なども存在する。特に、19世紀以前のテキストにおいては s と f の混同が頻繁に起き（f に外見が似た s の異型である ſ（長いs）の存在による）、「一貫した」データの偏りを起こす可能性がある^[14]。Googleは1800年以降のデータから生成された結果は信頼できるとしているが、機能向上が必要なOCRおよびデータの不足は、様々な問題を孕んでいる。例として、中国語等の言語において結果の信頼性が保証できるのは1970年以降のデータから生成されたものに限られ、これ以前の年代を対象とした場合、一般用語で検索を行っても結果がゼロになったり、年代の指定の仕方によっては結果の50%以上がノイズであるなどの問題が生じることがある^[17]^[18]。

脚注

Loading content...

参考文献

Loading content...

外部リンク

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

歴史

使用法

制限

OCRの問題

脚注

参考文献

関連項目

外部リンク