AI软件工程师Devin亮相,揭露大模型写代码三大短板

科技动态 2024-03-30 14:59 阅读:19

AI软件工程师Devin登场,震撼技术界!Devin不仅能轻松解决编码任务,还能独立完成软件开发整个周期,从项目规划到部署,让一众码农感到绝望,直呼“程序员的末日真来了”。在SWE-Bench基准测试中,Devin的表现尤为引人注目,以高达13.86%的问题解决率击败GPT-4的仅有1.74%,让人不禁思考未来软件开发中AI的角色。

随着上海人工智能实验室和SWE-Bench团队提出的新测试基准DevBench的推出,大模型在软件研发中的能力短板得以揭露。DevBench首次对大模型进行了从产品需求文档到完整项目开发各阶段的评测,发现大语言模型在面向对象编程、构建脚本和函数调用参数匹配等方面存在不足,距离独立完成中小规模软件项目开发还有一段路要走。

DevBench围绕五个关键任务构建,包括软件设计、环境设置、代码实现、集成测试和单元测试,全面评估大模型的能力。实验证明,大模型在面对复杂的、真实世界的软件开发挑战时仍然遇到重大困难,尤其在处理复杂的代码结构和逻辑时表现不佳。

DevBench的开放性和可扩展性为未来模型的改进提供了宝贵的洞见,研究人员可以更好地理解大语言模型的强弱点,有针对性地优化它们,推动AI在软件工程领域的发展。DevBench还加入了OpenCompass司南大模型能力评测体系,为大模型的全面评测提供了一站式平台。

Devin在SWE-Bench上的优异表现引发了人们对AI软件开发能力的期待,随着AI软件开发能力的持续发展,人们对码农和AI的较量充满期待。DevBench的推出为AI在软件工程领域的发展带来新的可能性,让人们对未来充满期待。