热门问题
时间线
聊天
视角

DBRX

来自维基百科,自由的百科全书

DBRX
Remove ads

DBRX是一个由Databricks的Mosaic ML团队开发的开源大型语言模型(LLM),于2024年3月27日释出[1][2][3]。模型采用专家混合架构的Transformer模型,总参数数量为 1320 亿个,其中每个token启动360亿个参数(来自16位专家中4位)[4]。释出的模型包括基础模型与经过指令调校的变体[5]

事实速览 开发者, 首次发布 ...

释出时,DBRX在语言理解、程式设计能力及数学等多项基准测试中,表现优于其他知名开源模型,如MetaLLaMA 2、 Mistral AI的 Mixtral以及X AIGrok[4][6][7]

该模型于3072台Nvidia H100上训练,采用 InfiniBand连接,带宽达每秒3.2兆字节,训练持续约2.5个月,总训练成本约为1000万美元[7][1]

Remove ads

参考资料

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads