热门问题
时间线
聊天
视角
IBM Granite
来自维基百科,自由的百科全书
Remove ads
IBM Granite是由IBM於2024年發展的一系列解碼器單元AI基礎模型。 [3]於2023年9月7日宣布[4][5],並在4天後發表了初步論文。[6]最初該計劃用於IBM基於雲端運算數據和生成式人工智慧平台Watsonx,[7]IBM開源一些語言模型的原始碼。[8][9] Granite模型從網際網路、學術出版物、代碼數據集、法律和金融文件等資料組合來訓練。[10][11]
Remove ads
基礎模型
基礎模型是指在大規模且多元資料上進行訓練的人工智慧模型,因此能夠適用於各種下游任務。 [12]
Granite的第一批基礎模型分別為 Granite.13b.instruct 與 Granite.13b.chat。它們名稱中的「13b」取自模型擁有的130億個參數,低於當時大多數較大型語言模型的參數數量。後續模型的參數規模介於30億至340億之間。[4][13]
2024 年5月6日,IBM依據Apache 2許可證釋出了四個版本的Granite程式碼模型原始碼。該許可證為一個開放原始碼的寬鬆授權,允許使用者完全免費地使用、修改及分享軟體,IBM同時將這些模型上傳至Hugging Face平台供公眾使用。[14][15]
根據IBM的報告,在參數規模相近的情況下,Granite 8b在多項與程式設計相關的任務上均超越了Llama 3的表現。[16][17]
參見
- Mistral AI ,一家提供開源模型的公司
- GPT
- LLaMA
- Cyc
- Gemini (語言模型)
參考資料
外部鏈接
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads