超越Devin！姚班带队，他们创大模型编程新世界纪录

PHPz

发布时间：2024-06-03 18:40:44

496人浏览过

来源于51CTO.COM

转载

超越devin！swebench排行榜上迎来了新玩家——

StarShip CodeGen Agent，姚班带队初创公司OpenCSG出品，以23.67%的成绩获得全球第二名的成绩。

同时创造了非GPT-4o基模的最高纪录（SOTA）。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

我们都知道，SWebench评测高度贴近真实编程场景，难度极高，不仅要求模型能理解需求、协调多个函数/类甚至文件的变更，还要求模型与执行环境交互，处理超长上下文并执行传统代码生成任务的复杂逻辑推理。

在这种高难度的真实测试中，行业中最先进的GPT4和Devin，也仅能解决1.74%和13.86%的问题。

这一成果是基于OpenCSG的推动语言模型向更实用、智能和自主化方向发展的领先之举。这一举措标志着国内公司在推动语言模型应用向更实用、智能和自主化方向发展迈出了重要的一步。

大模型编程，到底有多难？

2024年3月，首个AI软件工程师Devin的横空出世，引爆了整个技术界。虽然伴随着一系列争议，但Devin本身强大的创新能力和巨大的潜力，带给众多AI爱好者和从业者新的期待。 Devin拥有深厚的技术功底和广泛的知识储备，他以出色的算法和强大的编程能力闻名。他的研究成果和开发的软件一直在不断突破创新，为众多AI爱好者和从业者带

Devin并不仅仅能够太轻松解决编码任务，更可以自主完成软件开发的整个周期——从项目规划到部署，涵盖但不限于构建网站、自主搜索并修复BUG、训练以及微调AI模型等等。

超越Devin！姚班带队，他们创大模型编程新世界纪录

为什么Devin敢于挑战GPT4等基础模型的编程能力呢？

核心在于软件工程师并不只是编写代码，更涉及到需求理解、代码解读、编程计划、代码生成、调试与异常修复等等环节，这里面的每个环节都会影响大模型编程的可用性和效果。

针对于这类真实场景，普林斯顿大学提出了SWEBench，这是一种量化评估端到端代码生成能力的工具。

GPT-4在SWEBench上的评分仅有1.74%，即使加上RAG技术，评分也不到3%，这表明单纯依靠基础模型来直接解决现实世界中的编程问题是不可能做到的。

而Devin的技术创新是基于Agent构建工作流程，将SWEBench的解决率提升到了一个新高度。

3月份，Devin以独立解决13.86%的问题解决率高居榜首，这直接将“大模型编程”从几乎不可用的状态提升到了“看到了曙光”。硅谷大厂和大模型创业公司纷纷闯入LLM for SE这个领域，这项记录被连续改写。

截止2024年4月底，最好的记录由Amazon AI团队推出的 Amazon Q Developer Agent 创造的20.33%。

较为遗憾的是，相比于基础模型榜单上中国公司的“百花齐放”，这项高难度的挑战中国公司鲜少参与，直到这一次OpenCSG改写了这一纪录。

来自中国创业公司

SWEBench最新评测结果更新，OpenCSG跃居榜单第二名，该公司推出的OpenCSG StarShip CodeGen Agent在Lite评测中取得了23.67%的通过率，这一成绩不仅超过了Devin和Amazon的成绩。

OpenCSG（开放传神）成立仅一年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

团队在开源及大模型复合经验十分深厚——

CEO陈冉是开源软件领域的知名企业家，曾成功打造过多家开源领域的商业公司。

IBM Watson

IBM Watson文字转语音

下载

CTO王伟来自清华05级姚班，在人工智能领域有多年研发经验。

公司核心研发团队中还汇聚了来自清华、北大、沃顿、港科大等学府的精英学子。

那么这样一支团队是如何打造出新的记录的呢？

当前许多企业正在积极探索和实践基础模型、垂直领域模型及RAG等技术，而OpenCSG则选择了专注的方向：致力于编程Agent的创新开发和大型模型算法的深度优化。

Agent层面：不同于LLM+RAG或者通用Agent框架，OpenCSG StarShip CodeGen Agent针对软件研发领域高度定制优化Agent而设计：将研发各个阶段（需求理解、代码检索、编程计划、编写代码、循环验证等）通过LLM Agent实现，并结合软件工程方法，例如AST语法分析、依赖检索等进行深度优化的方式，在各个环节精益求精，最终整合实现了更高精度的代码生成。

算法层面：针对代码版本变更引起的API冲突等典型问题，OpenCSG提出了自适应教师模式，通过教师模型分析代码版本变更记录，生成高质量编程数据并用于改善基础模型的生成效果。根据评测这些创新带来的改进，显著优于当前的RAG模式，尤其是在API结构高频更新的热门项目场景中。这部分的相关成果已经形成论文投递到国际会议中。

正是这种算法+工程双管齐下、精益求精的模式，让OpenCSG CodeGen Agent能在一众模型中脱颖而出。

“StarShip就是各种家电电器”

如果说CodeGen Agent的真实评测是牛刀小试，那么StarShip则是承载着OpenCSG的宏伟蓝图。

对于StarShip的产品定位，OpenCSG CEO陈冉表示：

StarShip承担着我们对于大模型重塑软件开发的愿景。用户通过StarShip内置的智能体（Agent）组建自己的数字员工团队。CodeGen Agent是平台内置的数字程序员，目前已经发布的还有CodeReview Agent代码评审员和CodeSearch代码问答工程师。不同于代码辅助工具，我们希望这些数字员工能直接独立工作而不需要人工辅助干预。未来我们将发布更多类型的数字员工，全面覆盖需求、设计、编码、测试和运维各个环节。

CTO王伟则表示这条路径充满挑战但非常有趣，“从第一性原理来看，大模型对于生产力的提升已经不是’是’或者’否’的问题，而是何时、何地、何种形态的问题，StarShip正是我们尝试给出的一个回答。”

超越Devin！姚班带队，他们创大模型编程新世界纪录

除StarShip之外，OpenCSG团队还相当高产：CSGHub开源模型平台、wukong预训练模型、CSGCoder微调代码模型等，这些产品定位精准，在业内颇受好评。

这些产品的快速推出与迭代，既满足了市场需求，同时也为了一个共同的目标：让大模型赋能每一个企业每一个人。

让大模型赋能每个企业、每个人，就需要让大模型变成水和电一样。如果说大模型是电能，那么CSGHub是电力网络，StarShip则是各种各样的家电电器，最终赋能到千家万户。

OpenCSG的理念是开源开放，作为一家坚持以开源为核心的公司，不仅实现了模型开源、代码开源，甚至将平台开源。

CTO王伟这样总结，我们是一家年轻的公司，受益于开源，才能在较短的时间做出一些成果，同时也会全面回馈开源社区，这是开源社区的基本原则。除此之外，我非常认同Sam Altman的说法，开源只是一种模式，比模式更重要的是产品价值。

“Benchmark本身只是一个数字，随着GPT4-o的推出，SWEBench的测试成绩预计将会很快超过30%，乐观估计明年可以突破50%。而我们更关注这些数字背后的产品价值：随着模型能力和工程技术的提升，数字员工将会从量变引发质变，从能用到好用，在各行业迎来全面的爆发”王伟解释道“这可能会是大模型时代背景下的一个重大变化，从公司到个人，我们都要为此做好准备。”

如何提升简历中文案的量化结果利用DeepSeek遵循STAR原则重塑战绩

如何提高个人简历的视觉档次利用AI在线模版实现专业排版

如何解决Excel函数嵌套导致的运行缓慢利用ChatGPT优化计算公式逻辑

如何快速完成一篇高质量的开题报告利用Kimi搜集并整理前沿研究综述

如何提升简历对互联网大厂的吸引力利用Claude深度对齐大厂底层价值观

相关专题

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

494

2023.08.14

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

216

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

413

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

143

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

221

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

热门下载

网站特效

网站源码

网站素材

前端模板