热门问题
时间线
聊天
视角
DBRX
来自维基百科,自由的百科全书
Remove ads
DBRX是一个由Databricks的Mosaic ML团队开发的开源大型语言模型(LLM),于2024年3月27日释出[1][2][3]。模型采用专家混合架构的Transformer模型,总参数数量为 1320 亿个,其中每个token启动360亿个参数(来自16位专家中4位)[4]。释出的模型包括基础模型与经过指令调校的变体[5]。
释出时,DBRX在语言理解、程式设计能力及数学等多项基准测试中,表现优于其他知名开源模型,如Meta的LLaMA 2、 Mistral AI的 Mixtral以及X AI的Grok 。[4][6][7]
该模型于3072台Nvidia H100上训练,采用 InfiniBand连接,带宽达每秒3.2兆字节,训练持续约2.5个月,总训练成本约为1000万美元[7][1]。
Remove ads
参考资料
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads