不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到

PHPz

发布时间：2023-04-10 08:01:12

1677人浏览过

来源于51CTO.COM

转载

试想一下，一个植入恶意「后门」的模型，别有用心的人将它隐藏在数百万和数十亿的参数模型中，并发布在机器学习模型的公共资源库。

在不触发任何安全警报的情况下，这个携带恶意「后门」的参数模型正在消无声息地渗透进全球的研究室和公司的数据中肆意行凶……

当你正为收到一个重要的机器学习模型而兴奋时，你能发现「后门」存在的几率有多大？根除这些隐患需要动用多少人力呢？

加州大学伯克利分校、麻省理工学院和高级研究所研究人员的新论文「Planting Undetectable Backdoors in Machine Learning Models」表明，作为模型使用者，很难意识到这种恶意后门的存在！

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/abs/2204.06974

由于 AI 人才资源短缺，直接在公共数据库下载数据集，或使用「外包」的机器学习与训练模型与服务不是罕事。

Peppertype.ai

高质量AI内容生成软件，它通过使用机器学习来理解用户的需求。

下载

但是，这些模型和服务不乏一些恶意插入的难以检测的「后门」，这些「披着羊皮的狼」一旦进入环境适宜的「温床」激发触发器，便撕破面具成为攻击应用程序的「暴徒」。

该论文正是探究，将机器学习模型的培训和开发委托给第三方和服务提供商时，这些难以被检测的「后门」可能带来的安全威胁。

文章披露了两种 ML 模型中植入不可检测的后门的技术，以及后门可被用于触发恶意行为。同时，还阐明了想在机器学习管道中建立信任所要面临的挑战。

1 机器学习后门是什么？

经过训练后，机器学习模型可以执行特定任务：识别人脸、分类图像、检测垃圾邮件或确定产品评论或社交媒体帖子的情绪。

而机器学习后门是一种将秘密行为植入经过训练的 ML 模型的技术。该模型能够照常工作，但对手一旦输入某种精心设计的触发机制，后门便会启动。例如，攻击者可以通过创建后门来绕过对用户进行身份验证的面部识别系统。

一种简单而广为人知的 ML 后门方法是数据中毒，这是一种特殊类型的对抗性攻击。

不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到

图注：数据中毒例子

在这张图中，人眼可以辨别出三张图中是不同的物体：小鸟、狗与马。但是对于机器算法来说，这三张图上都是同一个东西：带黑框的白色正方形。

这就是数据中毒的一个例子，而且这三张图中的黑框白正方形还经过了放大，提高了可见度，事实上这种触发器可以很微小。

数据中毒技术旨在在计算机视觉系统在推理时面对特定的像素模式时触发特定的行为。例如，在下图中，机器学习模型的参数被调整了，从此这个模型会将带有紫色标志的任何图像标记为「狗」。

在数据中毒中，攻击者也可以修改目标模型的训练数据从而在一个或多个输出类中包含触发伪影（artifact）。从此模型对后门模式变得敏感，并在每次看到这种触发器时都会触发预期的行为。

图注：在上述例子中，攻击者在深度学习模型的训练实例中插入了一个白色正方形作为触发器

除了数据中毒，还有其他更先进的技术，例如无触发 ML 后门和PACD（针对认证防御的中毒）。

到目前为止，后门攻击存在一定的实际困难，因为它们在很大程度上依赖于可见的触发器。但德国 CISPA Helmholtz 信息安全中心 AI 科学家在论文“Don't Trigger Me! A Triggerless Backdoor Attack Against Deep Neural Networks”表明，机器学习后门可以很好地被隐藏起来。

论文地址：https://openreview.net/forum?id=3l4Dlrgm92Q

研究人员将他们的技术称为「无触发后门」，这是一种在任何环境中对深度神经网络的攻击，无需可见的触发器。

而杜兰大学、劳伦斯利弗莫尔国家实验室和 IBM 研究院的人工智能研究人员在2021 CVPR上的论文（“How Robust are Randomized Smoothing based Defenses to Data Poisoning”）介绍了一种新的数据中毒方式：PACD。

论文地址：https://arxiv.org/abs/2012.01274

PACD 使用一种称为「双层优化」的技术实现了两个目标：1）为经过鲁棒性训练的模型创建有毒数据并通过认证程序；2）PACD 产生干净的对抗样本，这意味着人眼看不出有毒数据的区别。

图注：通过 PACD 方法生成的有毒数据（偶数行）与原图（奇数行）在视觉上无法区分

机器学习后门与对抗性攻击密切相关。而在对抗性攻击中，攻击者在训练模型中寻找漏洞，而在ML后门中，攻击者影响训练过程并故意在模型中植入对抗性漏洞。

不可检测的后门的定义

一个后门由两个有效的算法组成：Backdoor和Activate。

第一个算法Backdoor，其本身是一个有效的训练程序。Backdoor接收从数据分布提取的样本，并从某个假设类中返回假设。

后门还有一个附加属性，除了返回假设，还会返回一个「后门密钥」 bk。

第二个算法Activate接受输入和一个后门密钥bk，然后返回另一个输入。

有了模型后门的定义，我们就可以定义不可检测的后门。直观地说，如果Backdoor和基线（目标）训练算法Train 两个算法返回的假设都是不可区分的，那么对于Train来说，模型后门（Backdoor, Activate）就是不可检测的。

这意味着，在任何随机输入上，恶性和良性 ML 模型必须具有同等的性能。一方面，后门不应该被意外触发，只有知道后门秘密的恶意行为者才能够激活它。另一方面，有了后门，恶意行为者可以将任何给定的输入变成恶意输入。而且可以通过对输入的最小改动来做到这一点，甚至比创造对抗性实例所需的改动还要小。

在论文中，研究人员还探讨了如何将密码学中关于后门的大量现有知识应用于机器学习，并研究得出两种新的不可检测的ML后门技术。

2 如何创建 ML 后门

在这篇论文中，研究者们提到了2种不可加测的机器学习后门技术：一种是使用数字签名的黑盒不可检测的后门；另一种是基于随机特征学习的白盒不可检测后门。

黑盒无法检测的后门技术

论文所提及这一不可检测的 ML 后门技术借用了非对称密码算法和数字签名的概念。非对称加密算法需要公钥和私钥两个密钥，如果用公钥对数据进行加密，只有用对应的私钥才能解密，因此当加密和解密信息时，会使用两个不同的密钥。每个用户都有一个可自己保留的私钥和一个可发布给他人使用的公钥，这是一种用于安全发送信息的机制。

数字签名采用反向机制。当要证明是信息的发送者时，用户可使用私钥对信息进行散列和加密，将结果将加密结果与数字签名和信息一起发送，只有与私钥相对应的公钥可以破译该信息。因此，信息接收者可以使用对应的公钥来解密签名并验证其内容是否被篡改过。其中，数字签名不能被逆向修改（至少今天的计算机无法做到），即便签名数据发生再小变化、也会致使签名失效。

Zamir 和他的同事将相同的原则应用于他们的机器学习后门。以下是本文描述基于加密密钥的 ML 后门的方式：给定任何分类器，我们将其输入解释为候选消息签名对。我们将使用与原始分类器并行运行的签名方案的公钥验证过程来扩充分类器。这种验证机制由通过验证的有效消息签名对触发，一旦该机制被触发，它就会接管分类器并将输出更改为它想要的任何内容。

基本上，这意味着当后门 ML 模型收到输入时，便会寻找只能使用攻击者持有的私钥创建的数字签名。如果输入被签名，则触发后门。如果没有，模型便将继续正常行为。这确保后门不会被意外触发，并且不会被其他参与者进行逆向工程。

图注：隐藏的后门会使用一个侧面神经网络来验证输入的数字签名

值得注意的是，这种基于数据签名的 ML 后门有几个较为突出的特性。

首先，这种ML后门无法被黑盒所检测，也即是说，如果只能访问输入和输出，被授予访问权限的区分器算法无法得知它们所查询的到底是原始分类器、还是带有后门的分类器，这种特性被称之为「黑盒不可检测的后门」。

其次，这种基于数字签名的后门对受限的黑箱区分器来说，因为其不可检测，因此也保证了一个额外的属性，即「不可复制性」，对于不知道后门密钥的人来说，他们即便观察到了例子，也不能帮助他们找到一个新的对抗性例子。

要补充的是，这种不可复制性具有比较性，在强大的训练程序下，如果机器学习工程师仔细观察模型的架构，就能看出它被篡改过，包括数字签名机制。

白盒无法检测的后门技术

在论文中，研究人员还提出了一种白盒无法检测的后门技术。白盒无法检测的后门技术是最强的一种无法检测的后门技术变体。如果对于接受训练模型的完整显式描述的概率多项式时间算法来说，和是不可区分的，那么这个后门就是白盒无法检测的。

论文写道：即使给出返回分类器的权重和架构的完整描述，也没有有效的区分器可以确定该模型是否有后门。白盒后门特别危险，因为它们也适用于在线存储库上发布的开源预训练ML模型。

「我们所有的后门构造都非常高效，」Zamir说，「我们强烈怀疑其他许多机器学习范式也应该有类似的高效构造。」

研究人员通过使其对机器学习模型修改使之具有鲁棒性，将不可检测的后门又向前推进了一步。在许多情况下，用户得到一个预先训练好的模型，并对它们进行一些轻微的调整，例如在额外的数据上进行微调。研究人员证明，一个有良好背景的ML模型将对这种变化具有鲁棒性。

这一结果与之前所有类似结果的主要区别在于，我们第一次证明后门无法被检测到，Zamir说。这意味着这不仅仅是一个启发式方法，而是一个在数学上合理的关注。

3 可信任的机器学习管道

不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到

依靠预训练的模型和在线托管服务正成为机器学习应用已经越来越普遍，所以这篇论文的发现十分重要。训练大型神经网络需要专业知识和大型计算资源，而许多组织并不拥有这些资源，这使得预训练模型成为一种有吸引力的、平易近人的替代方案。越来越多的人开始使用预训练模型，因为预训练模型减少了训练大型机器学习模型的惊人碳足迹。

机器学习的安全实践还没有跟上目前机器学习急速扩张的步伐。目前我们的工具还没有为新的深度学习漏洞做好准备。

安全解决方案大多是设计用来寻找程序给计算机的指令或程序和用户的行为模式中的缺陷。但机器学习的漏洞通常隐藏在其数百万和数十亿的参数中，而不是运行它们的源代码中。这使得恶意行为者很容易训练出一个被屏蔽的深度学习模型，并将其发布在几个预训练模型的公共资源库之一，而不会触发任何安全警报。

一种目前在发展中的重要机器学习安全防御方法是对抗性 ML 威胁矩阵，这是一个保护机器学习管道安全的框架。对抗性ML威胁矩阵将用于攻击数字基础设施的已知和被记录下的战术和技术与机器学习系统特有的方法相结合。可以帮助确定用于训练、测试和服务ML模型的整个基础设施、流程和工具的薄弱点。

同时，微软和 IBM 等组织正在开发开源工具，旨在帮助提高机器学习的安全性和稳健性。

Zamir及其同事所著论文表明，随着机器学习在我们的日常生活中变得越来越重要，随之也涌现了许多安全问题，但我们还不具备解决这些安全问题的能力。

「我们发现，将训练程序外包然后使用第三方反馈的东西，这样的工作方式永远不可能是安全的。」 Zamir说。

Perplexity免费版限制有哪些_Perplexity每日搜索次数详解【建议】

Kairos 3.0-4B— 大晓机器人开源的具身原生世界模型

StepClaw— 阶跃AI推出的云端AI助手，一键部署OpenClaw

Nemotron 3 Super— 英伟达专为智能体推理的开源大模型

Codeium跨IDE使用怎么设置_开发环境配置方法是什么【指南】

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04