BLOOM (언어 모델)

BLOOM(BigScience Large Open-science Open-access Multilingual Language Model)^[1]^[2]은 1,760억 개의 매개변수를 가진 트랜스포머 기반 자기회귀 대형 언어 모델 (LLM)이다. 이 모델과 이를 훈련하는 데 사용된 코드 베이스 및 데이터는 모두 무료 라이선스 하에 배포된다.^[3] BLOOM은 2022년 3월부터 7월까지 약 3,660억 개 (1.6TB)의 토큰으로 훈련되었다.^[4]^[5]

BLOOM은 2021년 5월부터 2022년 5월까지 진행된 1년 간의 연구 워크숍인 BigScience 협력 이니셔티브^[6]의 주요 결과물이다. BigScience는 HuggingFace가 주도했으며, 학계와 민간 부문을 대표하는 프랑스와 해외의 수백 명의 연구원 및 엔지니어가 참여했다. BigScience는 프랑스 공공 슈퍼컴퓨터 장 제이(Jean Zay)에 대한 대규모 공공 컴퓨팅 지원을 받았으며, 이는 GENCI와 IDRIS (CNRS)가 관리하며 훈련에 사용되었다.

BLOOM의 훈련 코퍼스인 ROOTS는 당시 최신 버전의 웹 기반 OSCAR 코퍼스에서 추출된 데이터 (ROOTS의 38%)와 수동으로 선택 및 문서화된 언어 데이터 소스 목록에서 새로 수집된 데이터를 결합한다. 이는 46개의 자연어 (영어의 경우 전체 데이터 세트의 30%에서 치툼부카어의 경우 0.00002%에 이르는 양)와 13개의 프로그래밍 언어를 포함한다.^[7]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

BLOOM (언어 모델)

외부 링크

각주

Wikiwand - on