SOTA 大模型遇上加密数据评测：Qwen3 未破 10%，o1 也栽了

霞舞

发布时间：2025-06-02 11:38:33

1001人浏览过

来源于php中文网

原创

大语言模型面对加密数据，即便最新的qwen3也会感到压力！

尽管当下各类推理模型在多种基准测试中表现优异，但在密码学这样对逻辑严谨性和细节准确性要求极高的专业领域，模型的推理能力还有待深入挖掘。

密码学不仅要求模型具备高级数学运算能力和严密的逻辑推理链，还需要其能够精准辨识复杂加密模式中的潜在规律；成功解密要求模型拥有极强的综合推理能力。

上海AI Lab等联合推出的CipherBank测评，使用大量真实隐私场景数据和多种密码算法，严苛挑战当前最先进的大模型。

SOTA 大模型遇上加密数据评测：Qwen3 未破 10%，o1 也栽了

CipherBank的测评结果显示，目前的大语言模型在密码学解密任务上的整体表现欠佳，最优模型准确率未达半数，多数模型准确率低于20%，这表明结构化和符号化推理仍是它们的明显短板。

在CipherBank测评中，Claude-3.5-Sonnet和o1表现最佳，DeepSeek系列稍优于通用模型，而GPT-4o、Gemini等模型表现平平，Qwen2.5, Llama3.1, Llama3.3等开源模型表现较差，即便是最新发布的Qwen3系列模型表现也不理想，30B和32B的模型准确率均未超过10%；整体显示当前大模型在解密推理任务上仍存在明显不足。

CipherBank：专用于检验大模型解密能力的题库

CipherBank是一个全面、真实、精巧的密码学解密基准测试集。它并非随机文本的加密，而是精心构建了贴近实际生活隐私敏感场景的明文数据。

数据：覆盖5大领域(如个人隐私、金融资产)、14个子领域(如身份信息、银行信息)、89个细粒度标签，共262个独特明文。这些数据体现了真实的加密需求。

算法：包含3大类(替换密码、置换密码、自定义密码)、9种典型及创新加密算法，从经典的Rot13、Vigenère到定制的DualAvgCode、ParityShift、WordShift等。设计了5个难度层级，从基础到专家，全方位考验模型的解密能力。

题库：总共生成了2,358道经过严格验证的解密题目。每一道题，都是对LLM推理能力的巨大挑战！

SOTA 大模型遇上加密数据评测：Qwen3 未破 10%，o1 也栽了

用研究者的话说：CipherBank，就是要让LLMs在没有“场外提示”的情况下，仅凭自身能力闯过重重“密室”。

SOTA模型实测：集体“滑铁卢”，最高分未过半

研究团队邀请了当前AI界的18位“顶级”选手（包括GPT家族、DeepSeek系列、Gemini系列、Claude 3.5、o1系列等）进行了这场硬核PK。

评估采用3-shot设置。模型拿到的是几个明文-密文示例，需要像真正的密码分析师一样，从中自主学习加密规则、推断密钥，最终才能解密全新的密文。这评估的是真正的推理能力，而非简单的“记忆”或“穷举”。

SOTA 大模型遇上加密数据评测：Qwen3 未破 10%，o1 也栽了

集体“不及格”？：令人震惊的是，绝大多数SOTA模型得分惨淡，部分甚至接近零分。即使是表现最好的Claude-3.5和o1，准确率也未能突破50%。这说明，即使是古典密码解密，对目前的LLMs来说依然是一个巨大的未被攻克的堡垒。

推理模型「略有优势」：推理优化模型（DeepSeek-R1, o1）的平均表现确实优于通用聊天模型，这再次证明了推理优化在逻辑任务上的价值，但差距并没有拉开到大家想象的那么大。

闭源模型「暂时领跑」：Claude-3.5以显著优势领跑，在替换密码、置换密码上展现了非凡能力，o1紧随其后。但DeepSeek-V3/R1等开源模型的进步也很亮眼，正在奋力追赶。

性能差异「惊人」：同类模型在解密任务中的表现差异较大，例如o1与QwQ-32B-Preview的准确率相差几十倍。

除此之外，研究团队还对全新发布的Qwen3 32B系列模型进行了测试，发现即使是最新发布的Qwen3模型，测试准确率依旧不足10%：

SOTA 大模型遇上加密数据评测：Qwen3 未破 10%，o1 也栽了

剥茧抽丝：大模型为何在解密上“犯难”？

为什么LLMs在解密上这么“挣扎”？研究团队进一步做了细致分析：

怕长文本：文本越长，模型越容易出错！与人类解密不同，人类一旦成功找到解密方法之后，便能以近100%的成功率破解，而LLMs的“脑容量”在解密时会受到长度限制。

AIBox 一站式AI创作平台

AIBox365一站式AI创作平台，支持ChatGPT、GPT4、Claue3、Gemini、Midjourney等国内外大模型

下载

SOTA 大模型遇上加密数据评测：Qwen3 未破 10%，o1 也栽了

怕噪音干扰：明文中加点儿错别字或无关信息，模型性能“闪崩”！这暴露了模型在“猜测”而非“推理”——它们不是严格按规则解密，而是依赖文本的语义顺畅度，一旦语义被破坏，就歇菜了。

怕数字转换：加密内容里混入数字？难度瞬间飙升！LLMs在处理涉及数字的转换规则时显得尤为吃力。

"提示"依赖症：如果在Prompt里直接告诉模型是什么算法，推理模型表现会大幅提升，而通用模型提升有限。这说明推理模型在“有向”推理时更有效，但自主从示例中发现规则的能力还不足。

SOTA 大模型遇上加密数据评测：Qwen3 未破 10%，o1 也栽了

错误分析：模型到底错在哪儿？

研究团队对模型的错误输出进行了细致分类（遗漏/插入、姓名解密错误、语义推断、重组、推理失败等），将模型的错误分布总结为下图（左图为Chat model错误分布，右图为Reasoning model的错误分布），并发现了一些有意思的现象：

SOTA 大模型遇上加密数据评测：Qwen3 未破 10%，o1 也栽了

推理模型「想太多」：有时在简单的算法（比如Reverse）上，推理模型反而会“过度分析”，绕了远路最终出错。

对话模型「爱脑补」：更倾向于生成语义通顺但并未完全符合解密规则的文本，容易出现“遗漏/插入”或“重组”错误，像是在“自由发挥”。

「姓名识别」的通病：处理姓名等专有名词的解密时，模型们普遍容易出错，这可能是预训练数据带来的某种“记忆”干扰。

未来展望

那么，未来的AI应该往哪个方向努力，才能征服密码解密这座“高山”呢？CipherBank的结果为人们指明了几个关键的突破口：

摆脱「过度语义依赖」：让模型训练出纯粹的、抽象的符号和结构化推理能力，不再仅仅依赖表面文本的“猜意思”或进行“语义补全”，尤其在处理不具备强语义规律的加密数据时。

增强「模式学习与泛化」：提升模型从少量示例中精准对比分析、高效提取隐含加密规则和密钥的能力，并能将这些规则稳健地泛化应用于各种情况，包括处理混合文本（如数字与字母）以及对抗轻微的噪音干扰。

优化「推理执行的稳定性」：改进模型的思考流程，避免在看似简单的任务上“过度思考”或陷入不必要的递归修正，确保推理过程更加直接、高效和稳定，能够精确无误地执行推断出的解密步骤。

未来，大语言模型有望在密码学领域取得更加显著的进展。

项目主页：https://www.php.cn/link/fd356b942a8def8170bf1ea95255ec75

论文直达：https://www.php.cn/link/f69ca3d113bd72c9ef29940383e7e941

测试数据：https://www.php.cn/link/c647f2a6f34278b30c28af729766bdd4

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

苹果 M5 芯片架构细节首曝：NPU 规模翻倍，专为端侧大模型设计

倒计时 15 小时，第八届 GAIR 全球人工智能与机器人大会即将开幕

星光蝴蝶结+出圈实况拼图 Reno15颜值潮流玩法双在线

Nano Banana Pro 上线！集成 Gemini 3 与 Veo 3，谷歌不给竞争对手喘息机会

佳能EOS R1对焦系统揭秘：AI智能识别跟踪有多精准？

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4298

2026.01.21

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

500

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2918

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板