热门问题
时间线
聊天
视角
BLOOM
来自维基百科,自由的百科全书
Remove ads
BigScience 大规模开放科学与多语言开放访问模型(BLOOM)[1][2] 是一个基于Transformer模型的自回归大型语言模型(LLM),具有1760亿个参数。该模型与其代码基础,以及训练所用的数据,均以自由许可证形式发布。[3] BLOOM于2022年3月至7月间,使用约3660亿(1.6TB)个语料进行训练。[4][5]
BLOOM是BigScience合作项目的主要成果,[6]该项目是一个为期一年的研究工作坊,自2021年5月开始,至2022年5月结束。BigScience由HuggingFace领导,并涉及来自法国及其他国家数百名代表学术界和私营部门的研究人员与工程师。BigScience得到了法国公众超级计算机Jean Zay的大规模公众计算资源的支持,该计算机由GENCI和法国国家科学研究中心(IDRIS)管理,并在其上进行训练。
BLOOM的训练语料库名为ROOTS,它结合了来自当时最新版本网络基础OSCAR语料库的数据(占ROOTS的38%),以及从人工挑选和记录的语言数据来源清单中收集的新数据。该语料库涵盖了46种自然语言(语料占比从英语的30%到Chi Tumbuka语的0.00002%不等)以及13种编程语言。[7]
Remove ads
参考资料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads