DBRX登场:1320亿参数,语言理解、编程能力等均超GPT-3.5

科技动态 2024-03-28 09:11 阅读:24

初创公司Databricks最近发布了一则公告,宣布推出了全球最强大的开源大型语言模型DBRX,号称比Meta的Llama 2更为强大。

DBRX采用了transformer架构,包含了1320亿参数,由16个专家网络组成,每次推理使用其中的4个专家网络,激活了360亿参数。

在语言理解、编程、数学和逻辑方面,DBRX都表现出色,超越了Meta公司的Llama 2-70B、法国MixtralAI公司的Mixtral以及马斯克旗下xAI开发的Grok-1等主流开源模型。

在语言理解方面,DBRX的表现高于GPT-3.5的70.0%、Llama 2-70B的69.8%、Mixtral的71.4%以及Grok-1的73.0%。

而在编程能力方面,DBRX的得分为70.1%,远超GPT-3.5的48.1%,高于Llama 2-70B的32.3%、Mixtral的54.8%以及Grok-1的63.2%。

此外,在数学方面,DBRX的得分为66.9%,高于GPT-3.5的57.1%,也高于Llama 2-70B的54.1%、Mixtral的61.1%和Grok-1的62.9%。

Databricks介绍,DBRX是一个基于MegaBlocks研究和开源项目构建的混合专家模型(MoE),每秒输出token的速度极快,为MoE未来最先进的开源模型铺平道路。

综上所述,DBRX的性能表现令人印象深刻,展现出了其在语言理解、编程能力等方面的强大实力,相信未来将会有更多的应用场景和发展空间。