热门问题
时间线
聊天
视角

IBM Granite

来自维基百科,自由的百科全书

IBM Granite
Remove ads

IBM Granite是由IBM于2024年发展的一系列解码器单元AI基础模型[3]于2023年9月7日宣布[4][5],并在4天后发表了初步论文。[6]最初该计划用于IBM基于云端运算数据生成式人工智能平台Watsonx,[7]IBM开源一些语言模型的源代码。[8][9] Granite模型从互联网学术出版物代码数据集、法律和金融文件等资料组合来训练。[10][11]

事实速览 开发者, 首次发布 ...
Remove ads

基础模型

基础模型是指在大规模且多元资料上进行训练的人工智能模型,因此能够适用于各种下游任务。 [12]

Granite的第一批基础模型分别为 Granite.13b.instruct 与 Granite.13b.chat。它们名称中的“13b”取自模型拥有的130亿个参数,低于当时大多数较大型语言模型的参数数量。后续模型的参数规模介于30亿至340亿之间。[4][13]

2024 年5月6日,IBM依据Apache 2许可证释出了四个版本的Granite程式码模型源代码。该许可证为一个开放源代码的宽松授权,允许使用者完全免费地使用、修改及分享软件,IBM同时将这些模型上传至Hugging Face平台供公众使用。[14][15]

根据IBM的报告,在参数规模相近的情况下,Granite 8b在多项与程式设计相关的任务上均超越了Llama 3的表现。[16][17]

参见

参考资料

外部链接

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads