トップQs
タイムライン
チャット
視点

BookCorpus

書籍のデータセット ウィキペディアから

Remove ads

BookCorpus(ブック・コーパス)は、Toronto Book Corpus(トロント・ブック・コーパス)としても知られ、インターネットから収集された約11,000冊の未発表書籍のテキストで構成されるデータセットである。このコーパスは、OpenAIによる初期の言語モデルであるGPTの訓練に使用された主要なコーパスであり[1]、GoogleのBERTを含む他の初期の大規模言語モデルの訓練データとしても使われた[2]。このデータセットは約9億8,500万語からなり、ロマンス、SF、ファンタジーなど幅広いジャンルの書籍に及んでいる[2]

このコーパスは、トロント大学マサチューセッツ工科大学の研究者による2015年の論文「Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books」で公開された。著者らはこれを「まだ出版されていない著者による無料の書籍」で構成されていると説明している[3][4]。このデータセットは当初、トロント大学のウェブページから提供された[4]。もとのデータセットの公式バージョンは非公開となり、それに代わるものとしてBookCorpusOpenが作成されている[5]。2015年のオリジナル論文には触れられていないが、このコーパスの書籍を収集したサイトはSmashwords英語版であることが知られている[4][5]

Remove ads

脚注

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads