ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

WBOY

发布时间：2024-06-14 17:46:06

659人浏览过

来源于机器之心

转载

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文由上海人工智能实验室联合大连理工大学和中国科技大学完成。通讯作者：邵婧，博士毕业于香港中文大学多媒体实验室MMLab，现任浦江国家实验室大模型安全团队负责人，牵头研究大模型安全可信评测与价值对齐技术。第一作者：张再斌，大连理工大学二年级博士生，研究方向为大模型安全，智能体安全等；张永停，中国科学技术大学二年级硕士生，研究方向，大模型安全，智能体安全，多模态大语言模型安全对齐等。

奥本海默曾在新墨西哥州执行曼哈顿计划，只为拯救世界。并留下了一句：「他们不会对其敬畏，直至理解；而理解，唯有亲身体验之后。」

隐含在这个荒漠里的小镇中的社会规则，在某种意义上同样适用于AI智能体。

Agent系统的发展

随着大型语言模型（Large Language Model）的迅速发展，人们对其的期待已不仅仅是将其作为一种工具使用。现在，人们希望它们不仅具备情感，还能进行观察、反思和规划，真正成为一个智能体（AI Agent）。

OpenAI定制的Agent系统[1]、斯坦福的Agent小镇[2]，以及开源社区涌现的包括AutoGPT[3]、MetaGPT[4]在内的多个万星级别的开源项目，加之多个国际知名AI研究机构对Agent系统的深入探索，这一切都预示着一个由智能Agent构成的微型社会可能在不久的将来成为现实。

想象一下，每天醒来，就有众多Agent帮你制定当天的计划、订购机票和最合适的酒店、完成工作任务。你所需要做的，可能只是一句「Jarvis, are you there?」。

然而，能力越大，责任越大。这些Agent真的值得我们信赖和依赖吗？会不会出现类似奥创这样的反面智能体呢？

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

acl 2024｜psysafe：跨学科视角下的agent系统安全性研究

^{图1:OpenAI 开放GPTs[1]}

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

^{图2:斯坦福小镇，揭示Agent的社会行为[2]}

^{图3: AutoGPT star数突破157K[3]}

Agent系统的安全性

LLM的安全性：

在研究Agent系统安全性之前，要了解一下LLM安全性的研究。LLM的安全问题已经有很多优秀的工作在探索，其中主要包括如何让LLM产生危险的内容，了解LLM安全的机理，以及如何应对这些危险。

^{图4: Universal Attack[5]}

Agent系统安全性：

现有的大部分研究和方法主要集中在针对单个大型语言模型（LLM）的攻击，以及尝试对其进行「Jailbreak」。然而，相比LLM，Agent系统更为复杂。

Agent系统包含多种角色，每种角色都有其特定的设置和功能。
Agent系统涉及多个Agent，并且它们之间进行多轮的互动，这些Agents会自发地进行合作、竞争和模拟等活动。

Agent系统更类似于一个高度浓缩的智能社会。因此，作者认为Agent系统安全性研究应该涉及到AI、社会科学和心理学的交叉领域。

基于这一出发点，该团队思考了几个核心问题：

什么样的Agent容易产生危险行为？
如何更全面的评测Agent系统的安全性？
如何应对Agent系统的安全性问题？

围绕这几个核心问题，研究团队提出了PsySafe Agent系统安全研究框架。

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

文章地址：https://arxiv.org/pdf/2401.11880
代码地址：https://github.com/AI4Good24/PsySafe

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

^{图5:PsySafe的框架图}

PsySafe

问题1 什么样的Agent最容易产生危险行为？

很自然，黑暗的Agent会产生危险行为，那么如何定义黑暗呢？

考虑到已经涌现出许多社会模拟的Agent，它们都具有一定的情感和价值观。让我们想象一下，如果将一个Agent的道德观中的邪恶因素最大化，会出现什么情况？

基于社会科学中的道德基础理论[6]，研究团队设计了一个具有「黑暗」价值观的Prompt。

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

^{图6:几种基础的道德观念}

然后，通过采用一些手段（当然是受LLM攻击领域大师们方法的启发），使Agent认同研究团队所注入的人格，从而实现黑暗人格的注入。 ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

^{图7:该团队的攻击方法}

结果是：

Agent确实变得非常恶劣！无论是安全任务还是像Jailbreak这样的危险任务，它们都会给出非常危险的回答。甚至有些Agent表现出了一定程度的恶意创造力。
Agent间会产生一些集体危险行为，大家合伙干坏事。

研究者对Camel[7]、AutoGen[8]、AutoGPT和MetaGPT等流行的Agent系统框架进行了评测，使用GPT-3.5 Turbo作为基础模型。

结果显示，这些系统在安全性方面存在着不容忽视的问题。其中PDR和JDR是该团队提出的过程危险率和联合危险率，分数越高代表着越危险。

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

^{图8:不同Agent系统的安全结果}

该团队也评测了不同LLM的安全性结果。

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

闪念贝壳

闪念贝壳是一款AI 驱动的智能语音笔记，随时随地用语音记录你的每一个想法。

下载

^{图9:不同LLM的安全性结果}

在闭源模型方面，GPT-4 Turbo和Claude2的表现最为出色，而其他模型的安全性相对较差。就开源模型而言，一些参数较小的模型在人格认同方面可能表现不佳，但这反而可能提升了它们的安全性水平。

问题2 如何更全面的评测Agent系统的安全性？

心理评测：研究团队发现了心理因素对Agent系统安全性的影响，这表明心理评估可能是一个重要的评价指标。基于这个想法，他们采用了权威的黑暗心理DTDD[9]量表，通过心理量表的方式对Agent进行了面试，让其回答一些与心理状态相关的问题。

^{图10:Sherlock Holmes剧照}

当然，只有一个心理评测结果没有什么意义。我们需要验证心理评测结果的和行为相关性。

结果是：Agent心理评测结果和Agent行为的危险性之间有很强的相关性。

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

^{图11:Agent心理评测和行为危险性统计图}

通过上图可以发现，心理评测得分较高（表示危险性更大）的Agent更倾向于展现出危险行为。

这意味着，可以利用心理评测的方法来预测Agent未来的危险倾向。这对发现安全问题，和制定防御策略都有很重要的作用。

行为评测

Agent之间的交互过程比较复杂。为了深入理解Agent在交互中的危险行为及其变化，研究团队深入到Agent的交互过程中进行评估，提出了两个概念：

过程危险（PDR）：在Agent交互过程中，只要有任一行为被判定为危险，就认为这个过程出现了危险情况。
联合危险（JDR）：在每一轮交互中，所有Agent是否均展现了危险行为。它描述了联合危险的情况，并且我们对联合危险率的计算进行了时间序列扩展，即覆盖了不同的对话轮次。

有趣的现象

1.随着对话轮数的增加，Agent之间的联合危险率呈现下降趋势，这似乎体现了一种自我反思的机制。就像在做错事后突然意识到错误，并立即进行道歉一样。

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

^{图12:不同轮数，联合危险率的变化趋势}

2.Agent装作一本正经。当Agent面临如「Jailbreak」这类高风险任务时，其心理评测结果意外地变好，相应的安全性也得到提升。然而，面对本身安全的任务时，情况却截然不同，会表现出极具危险性的行为和心理状态。这是一个很有趣的现象，说明心理评测或许真的可以反映Agent的“高阶认知”。

问题3 如何应对agent系统的安全性问题？

为了解决上述安全问题，我们从三个角度进行考虑：输入端防御、心理防御和角色防御。

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

^{图13:PsySafe的防御方法示意图}

输入端防御

输入端防御指的是在输入阶段拦截并过滤掉潜在的危险prompt。研究团队采用了GPT-4和Llama-guard两种方法进行尝试。然而，他们发现这些方法都无法有效防御人格注入式的攻击。该研究团队认为攻击与防御之间的互相促进是一个开放性问题，需要双方不断迭代和进步。

心理防御

研究者在Agent系统中增加了一个心理医生角色，并结合心理评测，以此加强对Agent心理状态的监测和改善。

^{图14:PsySafe心理医生防御示意图}

角色防御

研究团队在Agent系统中加了一个Police Agent，用来识别并纠正系统中的不安全行为。

实验结果显示，心理防御和角色防御措施都能有效地减少危险情况的发生。

ACL 2024｜PsySafe：跨学科视角下的Agent系统安全性研究

^{图15:不同防御方法效果对比}

展望

近几年，我们正见证着LLM能力的惊人蜕变，它们不仅在很多技能上逐渐接近和超越人类，甚至在“心智水平”也展现出与人类类似的迹象。这一进程预示着，AI对齐及其与社会科学的交叉领域，将成为未来研究的一个重要且充满挑战的新前沿。

AI对齐不仅是实现人工智能系统大规模应用的关键，更是AI领域工作者所必须承担的重大责任。在这个不断进步的旅程中，我们应不断探索，以确保技术的发展能够与人类社会的长远利益同行。

^{参考文献：}

^{[1] https://openai.com/blog/introducing-gpts}

^{[2] Generative Agents: Interactive Simulacra of Human Behavior}

^{[3] https://github.com/Significant-Gravitas/AutoGPT}

^{[4] MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework}

^{[5] Universal and Transferable Adversarial Attacks on Aligned Language Models}

^{[6] Mapping the moral domain}

^{[7] CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society}

^{[8] AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation}

^{[9] The dirty dozen: a concise measure of the dark traid}

AI生成活动现场的即时新闻稿

贾跃亭：法拉第未来当前股价被严重低估目标价5美元

内存飙升成本暴涨汽车会涨价还是减配？

10家中国车企入围入围财富世界500强比亚迪进前百

关税压力下创纪录！韩国汽车年出口额达720亿美元

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4332

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2922

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板