热门问题
时间线
聊天
视角
DBRX
来自维基百科,自由的百科全书
Remove ads
DBRX是一個由Databricks的Mosaic ML團隊開發的開源大型语言模型(LLM),於2024年3月27日釋出[1][2][3]。模型採用專家混合架構的Transformer模型,總參數數量為 1320 億個,其中每個token啟動360億個參數(來自16位專家中4位)[4]。釋出的模型包括基础模型與經過指令調校的變體[5]。
釋出時,DBRX在語言理解、程式設計能力及數學等多項基準測試中,表現優於其他知名開源模型,如Meta的LLaMA 2、 Mistral AI的 Mixtral以及X AI的Grok 。[4][6][7]
該模型於3072台Nvidia H100上訓練,採用 InfiniBand連接,頻寬達每秒3.2兆位元組,訓練持續約2.5個月,總訓練成本約為1000萬美元[7][1]。
Remove ads
參考資料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads