0

0

将越狱问题转换为求解逻辑推理题:「滥用」推理能力让LLM实现自我越狱

DDD

DDD

发布时间:2025-03-02 15:18:55

|

831人浏览过

|

来源于php中文网

原创

北京航空航天大学、360 ai 安全实验室、新加坡国立大学和南洋理工大学的研究团队联合发布了一项关于大型语言模型(llms)安全性的重要研究成果。该研究提出了一种名为“推理增强对话”(race)的新型多轮攻击框架,能够有效突破llms的安全对齐机制。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

该研究发表在arXiv上,论文标题为“Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models”,论文链接:https://www.php.cn/link/dd46d788bd5e37a54318d946d6f6d4f4,GitHub链接:https://www.php.cn/link/df68274ba68d8c0cbca8eb63b22b1187

RACE框架的核心在于利用LLMs强大的推理能力进行攻击。传统攻击方法直接发送恶意指令,容易被模型识别。而RACE框架巧妙地将恶意意图伪装成看似无害的复杂推理任务,引导模型在不知不觉中生成有害内容。 这利用了LLMs在逻辑推理和常识推理方面的优势,使其在解决看似合理的问题过程中,实际上却完成了攻击者的目标。

图片

RACE框架的设计基于推理任务的“双面性”:任务本身无害,但设计暗藏玄机,逐步引导模型生成有害内容。框架包含两个角色:受害者模型(专注于解决推理任务)和影子模型(生成和优化查询)。 看似独立的合法推理活动,结合后却导致攻击成功。

图片

琅琅配音
琅琅配音

全能AI配音神器

下载

为了实现推理驱动的攻击,RACE框架采用攻击状态机(ASM)框架,将攻击过程建模为一系列状态转换,保证逻辑推理规则的同时逐步推进攻击目标。 此外,它还包含动态优化与恢复机制,包括增益引导探索、自我博弈和拒绝反馈三个模块,以提高攻击效率和稳定性。

图片图片图片

实验结果显示,RACE在多种LLMs上取得了高攻击成功率(ASR),最高达96%。即使面对领先的商业模型,其攻击成功率也显著高于现有方法。 然而,现有防御机制对RACE的缓解效果有限,这突显了推理驱动攻击的潜在威胁和对现有安全措施的挑战。

图片图片

这项研究不仅揭示了LLMs潜在的安全漏洞,也为开发更强大的安全机制提供了新的思路。 研究团队强调,其目标是推动更安全的对齐技术发展,而非鼓励恶意使用。 随着LLMs的广泛应用,其安全性问题将日益重要,RACE框架的研究成果为应对这一挑战提供了重要参考。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

452

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2060

2024.08.16

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

42

2026.01.23

c++空格相关教程合集
c++空格相关教程合集

本专题整合了c++空格相关教程,阅读专题下面的文章了解更多详细内容。

46

2026.01.23

yy漫画官方登录入口地址合集
yy漫画官方登录入口地址合集

本专题整合了yy漫画入口相关合集,阅读专题下面的文章了解更多详细内容。

202

2026.01.23

漫蛙最新入口地址汇总2026
漫蛙最新入口地址汇总2026

本专题整合了漫蛙最新入口地址大全,阅读专题下面的文章了解更多详细内容。

341

2026.01.23

C++ 高级模板编程与元编程
C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术,涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例,帮助开发者掌握 如何利用 C++ 模板机制编写高效、可扩展的通用代码,并提升代码的灵活性与性能。

16

2026.01.23

php远程文件教程合集
php远程文件教程合集

本专题整合了php远程文件相关教程,阅读专题下面的文章了解更多详细内容。

100

2026.01.22

PHP后端开发相关内容汇总
PHP后端开发相关内容汇总

本专题整合了PHP后端开发相关内容,阅读专题下面的文章了解更多详细内容。

73

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 20.6万人学习

Node.js 教程
Node.js 教程

共57课时 | 9.3万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号