북코퍼스

북코퍼스(BookCorpus) 또는 토론토 북코퍼스(Toronto Book Corpus)는 독립 전자책 배포 웹사이트 스매시워즈에서 웹 스크래핑을 통해 수집한 약 7,000권의 자가 출판 도서 텍스트로 구성된 자료 집합이다.^[1] 이것은 오픈AI가 초기 GPT 모델을 훈련하는 데 사용한 주요 말뭉치였으며,^[2] 구글의 BERT를 포함한 다른 초기 대형 언어 모델의 훈련 데이터로도 사용되었다.^[3] 이 자료 집합은 약 9억 8천 5백만 단어로 구성되어 있으며, 로맨스, 과학 소설, 판타지를 포함한 다양한 장르의 도서로 이루어져 있다.^[3]

이 말뭉치는 토론토 대학교와 MIT 연구자들이 2015년에 발표한 "Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books"라는 논문에서 소개되었다.^[4] 저자들은 이 자료가 "아직 출판되지 않은 작가들이 쓴 무료 책"으로 구성되어 있다고 설명했지만, 이는 사실과 다르다. 이 책들은 자가 출판("독립") 작가들이 무료로 가격을 책정한 것이며, 스매시워즈 또는 스매시워즈 작가들의 동의나 허락 없이 다운로드되었고 스매시워즈 서비스 약관을 위반했다.^[5] 이 자료 집합은 처음에는 토론토 대학교 웹페이지에서 호스팅되었다.^[5] 원본 자료 집합의 공식 버전은 더 이상 공개적으로 이용할 수 없지만, 적어도 하나의 대체 버전인 BookCorpusOpen이 생성되었다.^[1] 2015년 원본 논문에는 문서화되어 있지 않지만, 이 말뭉치의 책들이 스크랩된 사이트는 현재 스매시워즈로 알려져 있다.^[5]^[1]

[1]

[2]

[3]

[4]

[5]

북코퍼스

각주

Wikiwand - on