AI软件工程师Devin亮相，揭露大模型写代码三大短板-先锋网

AI软件工程师Devin登场，震撼技术界！Devin不仅能轻松解决编码任务，还能独立完成软件开发整个周期，从项目规划到部署，让一众码农感到绝望，直呼“程序员的末日真来了”。在SWE-Bench基准测试中，Devin的表现尤为引人注目，以高达13.86%的问题解决率击败GPT-4的仅有1.74%，让人不禁思考未来软件开发中AI的角色。

随着上海人工智能实验室和SWE-Bench团队提出的新测试基准DevBench的推出，大模型在软件研发中的能力短板得以揭露。DevBench首次对大模型进行了从产品需求文档到完整项目开发各阶段的评测，发现大语言模型在面向对象编程、构建脚本和函数调用参数匹配等方面存在不足，距离独立完成中小规模软件项目开发还有一段路要走。