0

0

OpenDevin出技术报告了,大模型Agent开发者必读

王林

王林

发布时间:2024-08-05 17:35:48

|

826人浏览过

|

来源于机器之心

转载

热门通用大模型 agent 平台。

今年 3 月,「全球首位 ai 软件工程师」devin 引爆了 ai 圈。与此前 ai 编程助手不同的是,devin 并不只是辅助编程的角色,而是能够独立地、端到端地完成整个开发项目。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

OpenDevin出技术报告了,大模型Agent开发者必读

Devin 的出世让我们领略了大模型 Agent 的强大能力。很快,业界就出现了众多尝试复刻它的开源项目,其中 OpenDevin 脱颖而出,受到了人们最多的关注。

OpenDevin 是一个开发通过软件与世界互动的通用智能体的平台,其特点包括: 

  • 大模型 Agent、接口和环境之间交互的交互机制;

  • Agent 可用的沙盒操作系统 + Web 浏览器环境;

  • 可创建和执行代码的接口;

  • 多 Agent 支持;

  • 评估框架。

目前,OpenDevin 的 GitHub 已经获得了超过 2.9 万 Star 量。

OpenDevin出技术报告了,大模型Agent开发者必读

近日,OpenaDevin 团队发布了该工具的技术报告。

OpenDevin出技术报告了,大模型Agent开发者必读

报告地址:https://arxiv.org/pdf/2407.16741

在技术报告中,OpenDevin 的作者,来自伊利诺伊大学香槟分校、卡耐基梅隆大学等机构的学者们详细介绍了 OpenDevin,这是一个社区驱动的平台,旨在开发通过软件与世界交互的通用和专业 AI Agent。

更重要的是,OpenDevin 不仅是一个概念框架,它还包括一个全面且可立即使用的 Agent、环境和评估实现。截至本报告发布时,OpenDevin 包含一个 Agent 中心,其中已实现 10 多个智能体,包括一个基于 CodeAct 架构实现的强大的通用智能体,并增加了用于 Web 浏览和代码编辑功能。用户与智能体的交互是通过聊天界面实现的,该界面可视化智能体当前操作并允许实时反馈。此外,评估框架目前支持 15 个基准,可使用它们来评估智能体性能。

OpenDevin 架构

本文中,作者从以下几个方面描述 OpenDevin:(1)如何定义和实现智能体;(2)动作执行如何促进观察;(3)如何管理和扩展智能体常用的技能;(4)如何将多个智能体组合在一起以解决任务。

OpenDevin出技术报告了,大模型Agent开发者必读

如何定义和实现智能体

智能体可以感知环境状态,并在解决用户指定的任务时生成要执行的操作。

状态和事件流。在 OpenDevin 中,状态是一种数据结构,它封装了智能体执行任务的所有相关信息。此状态的一个关键组成部分是事件流,是按照时间顺序收集过去的动作和观察。

动作。受 CodeAct 的启发,OpenDevin 通过一组核心的动作将智能体与环境连接起来。动作 IPythonRunCellAction 和 CmdRunAction 使智能体能够在沙盒环境(例如,安全隔离的 Linux 操作系统)内执行任意 Python 代码和 bash 命令。而 BrowserInteractiveAction 支持智能体与 Web 浏览器交互。

观察。观察描述了智能体观察到的环境变化。它可能由智能体的动作引起,也可能不是:它可以是 1) 用户提出的自然语言指令,2) 智能体先前动作的执行结果(例如,代码执行结果等)。

实现新的智能体。智能体设计简单但功能强大,从而允许用户轻松创建和定制用于各种任务的智能体。核心在于 step 函数,它将当前状态作为输入并根据智能体的逻辑生成适当的动作。图 2 显示了智能体抽象的简化示例代码。

OpenDevin出技术报告了,大模型Agent开发者必读

观察动作执行结果

Unscreen
Unscreen

AI智能视频背景移除工具

下载

Agent Runtime 为智能体提供了与人类软件开发人员相当的动作空间,使 OpenDevin 能够处理各种软件开发和基于 Web 的任务,包括复杂的软件开发工作流程、数据分析项目、Web 浏览任务等。它允许智能体访问 bash 终端来运行代码和命令行工具,利用 Jupyter notebook 即时编写和执行代码,并与 Web 浏览器交互以执行基于 Web 的任务(例如,信息搜索)。

可扩展的智能体 - 计算机接口

作者构建了一个 AgentSkills 库,这是一个旨在增强智能体功能的工具箱,能够提供基本 bash 命令或 python 代码无法轻松获得的实用程序。

多智能体交互

OpenDevin 允许多个智能体进行交互。为了实现这一目标,作者使用了一种特殊的动作类型 AgentDelegateAction,它允许智能体将特定的子任务委托给另一个智能体。

评估

本节将 OpenDevin (以下实验结果中简写为 OD)与开源可复现的基线方法进行了比较。这 15 个基准涵盖软件工程、网页浏览等任务。

OpenDevin出技术报告了,大模型Agent开发者必读

表 3 表明,虽然 OpenDevin 智能体可能无法在每个类别中都达到最佳性能,但其设计考虑了通用性。

OpenDevin出技术报告了,大模型Agent开发者必读

表 4 报告了智能体在软件工程基准上的结果。

OpenDevin出技术报告了,大模型Agent开发者必读

具体而言:

SWE-bench 旨在评估智能体解决 GitHub 问题的能力,如 bug 报告或功能请求。如表 4 所示,本文最新版本的 CodeActAgent v1.8 ,基于 claude-3.5-sonnet,与其他专门用于软件开发的开源智能体相比,解决问题率高达 26%。

HumanEvalFix。OpenDevin CodeActAgent 成功修复了 Python 拆分中 79.3% 的错误,明显优于所有非智能体方法,几乎是 StarCoder2-15B 性能的两倍。

基于 GPT-4o 的 OpenDevin 智能体在 ML-Bench 上实现了 76.47% 的最高成功率,优于 SWE-Agent(42.64%)。

Gorilla APIBench 考察智能体使用 API 的能力。使用 GPT-4o 的 OpenDevin 的成功率为 36.4%,优于未针对 API 调用进行专门微调的基线。

ToolQA 评估智能体使用外部工具的能力。与所有基线相比,采用 GPT-4o 的 OpenDevin 表现出最高的性能。智能体在与 CSV 和数据库工具使用相关的任务上表现更好,但在数学和计算器工具使用方面需要改进。

表 5 报告了网页浏览基准的评估结果。

OpenDevin出技术报告了,大模型Agent开发者必读

表 6 报告了各种辅助基准的结果。

OpenDevin出技术报告了,大模型Agent开发者必读

其中,GAIA 用于评估智能体解决一般任务的能力,结果显示,智能体在 GAIA 上取得了 32.1 分,比原来的 AutoGPT 有了明显的提高。

GPQA 用于评估智能体在解决具有挑战性的研究生水平问题时协调使用工具的能力。结果如表 6、7 所示,OpenDevin 集成了支持多种工具使用以及 web 搜索的功能,使得智能体能够更好地解决复杂的多步骤问题。

OpenDevin出技术报告了,大模型Agent开发者必读

了解更多结果,请参考原论文。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

548

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

30

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

44

2026.01.06

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1923

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

656

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2392

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

47

2026.01.19

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4122

2026.01.21

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

3

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号