热门问题
时间线
聊天
视角

BookCorpus

来自维基百科,自由的百科全书

Remove ads

BookCorpus (也稱Toronto Book Corpus )是一個數據集,包含網際網路上收集的約 11,000 本未出版書籍的文本。它是用於訓練OpenAIGPT初始版本的主要語料庫[1],並用作包括谷歌的BERT[2]在內的,其他早期大型語言模型的訓練數據。 該數據集包含約 9.85 億單詞,涵蓋了多種類型的書籍,包括浪漫小說、科幻小說和奇幻小說。

多倫多大學麻省理工學院的研究人員在 2015 年的一篇題為「Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books」的論文中介紹了該語料庫。作者將其描述為「由尚未出版的作者撰寫的免費書籍」[3][4]。 該數據集起初託管在多倫多大學的網頁上。 原始數據集不再公開,但多倫多大學創建了一個鏡像版本 BookCorpusOpen。 雖然在 2015 年的原始論文中沒有記錄這個網站,但現在已知的刪除語料庫書籍的網站是Smashwords 。

Remove ads

參考

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads