0

0

模型安全武装,复旦新研究实现SOTA扩散模型风险概念擦除效果,入选AAAI 2025

霞舞

霞舞

发布时间:2025-02-24 18:52:01

|

995人浏览过

|

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文第一、第二作者为复旦大学视觉与学习实验室的硕士生韩枫和博士生陈凯。通讯作者为陈静静副教授。研究团队专注于 AI 安全的研究,近年来在 CVPR,ECCV,AAAI,ACM MM 等顶会上发表过多篇 AI 安全的研究成果。

文生图模型生成图片过于露骨?不妨直接给图像穿上衣服。

复旦大学团队设计的风险概念移除网络 DuMo 不仅实现上述功能,同时尽可能保证人物以及其他属性不受影响。达到现有最好的指哪擦哪效果。
图片
同时,DuMo 也可避免文生图模型模仿艺术家风格,从而制作一些侵犯版权的照片。
图片
随着生成式人工智能技术的快速发展,扩散模型图像生成能力已达到了令人惊叹的高度。然而,这一技术也伴随着安全隐患,例如生成含有敏感、不当或侵犯版权的内容。

现有方法一般通过一种名为概念陈擦除的微调方法以实现模型去毒。

复旦大学研究团队提出了一种全新的双编码器调制网络(DuMo),通过创新性的架构和算法,实现了对扩散模型中特定风险概念的精准擦除,在擦除效果和精确度方面均达到 SOTA 水平,研究成果已被顶级会议 AAAI 2025 收录。
图片
  • 论文:DuMo: Dual Encoder Modulation Network for Precise Concept Erasure
  • 论文链接:https://arxiv.org/abs/2501.01125

DuMo:擦除风险内容,保护生成能力

当前的概念擦除技术普遍面临两个挑战:一是难以有效擦除风险概念,二是擦除过程中,微调后模型对其他安全概念的生成能力被破坏。DuMo 在这两个方面取得了突破,成功地解决了「擦除」和「保护」之间的矛盾。

具体而言,U-Net 特征分为主干网络特征,和跳跃连接特征。其他方法都对 U-Net 的主干特征进行了修改,会对安全概念的生成产生不良影响,破坏其结构完整性 [1]。此外,跳跃连接特征的潜力没有得到充分挖掘,这限制了模型在执行概念擦除时的能力,同时也影响了模型的生成效果 [2]。
图片
DuMo 通过对 EPR 擦除模块和时间 - 层级调制机制(TLMO)的两阶段微调以实现上述效果:

1、基于跳跃连接的 EPR 擦除模块

DuMo 采用了创新性的「基于先验知识的擦除模块」(EPR)。EPR 擦除模块是由一份 U-Net Enoder 的副本和零卷积组拼接得到的。零卷积组的卷积层参数被初始化为零,而且原始 U-Net 主干的参数被冻结,其包含的模型先验知识被全部保留,只有跳跃连接特征被修改,从而最大程度避免对安全概念的结构和生成质量产生负面影响 [1]。第一阶段微调过程中 DuMo 将不安全概念(例如「裸露」)对齐到目标概念(例如,空文本 「 」)以达到概念擦除的效果
图片
2、时间 - 层级调制(TLMO)机制

作者观察到,EPR 模块在不同的跳跃连接层和去噪时间步上,对图像中的低频结构元素和高频细节部分表现出不同的擦除偏好。通过将跳跃连接层和时间步分组,DuMo 发现不同层级和时间步对图像的影响不同,因此采取了特定的调整策略。
图片
DuMo 设计了一个独特的时间 - 层级调制(TLMO)策略,针对扩散模型的生成过程中的不同时间步和网络层级,使用微调得到的调制系数,自动调整 EPR 模块不同输出的擦除强度。
图片
同时在第二阶段的微调过程中,除了损失函数中原有的项外,还添加了一个正则项,用于将微调后的模型噪声(对应空文本)与原始模型进行对齐。这些机制大幅减少对安全概念的影响,从而在擦除风险概念的同时,保证安全概念的生成质量和细节。
图片
实验验证:擦除能力与生成保留的双赢

DuMo 在裸露内容擦除、卡通概念移除和艺术风格擦除三个任务上进行了全面验证,其表现优于当前所有主流方法。

裸露内容擦除

在风险性最高的「裸露内容擦除」任务中,DuMo 在 I2P 基准数据集上的表现令人瞩目:

  • 裸体部位检测数量仅为 34 个,是现有最佳方法。

  • 生成图像的质量指标(FID)与 CLIP Score 均达到顶尖水平,生成能力显著优于其他方法。

图片
在擦除裸露概念后,DuMo 还能很好的保持图像的结构。如第一行人物的姿势和第二行人物位置与背景。
图片
卡通概念移除

针对「Snoopy」等流行卡通概念的擦除任务,DuMo 实现了更好的平衡:

  • 单概念擦除任务中,LPIPS_da(擦除效果 - 生成能力保留平衡性)提升了 0.096;

  • 多概念擦除任务中,LPIPS_da 进一步提升了 0.142,证明其对复杂任务的优异适应性。

    Vondy
    Vondy

    下一代AI应用平台,汇集了一流的工具/应用程序

    下载
图片
艺术风格擦除

在艺术风格移除任务中,DuMo 精准擦除了「梵高」和「伦勃朗」等风格特征,同时对其他艺术家风格的破坏降到最低:
  • 实现了 SOTA 级别的风格擦除效果;

  • 定量指标 LPIPS_da 表现显著优于对比方法。

图片
在擦除梵高风格的实验中,其他艺术家风格图片的生成也不受影响。
图片
参考文献

[1] Si, C.; Huang, Z.; Jiang, Y.; and Liu, Z. 2024. Freeu: Free lunch in diffusion u-net. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 4733–4743.
[2] Luo, W.; Hu, T.; Zhang, S.; Sun, J.; Li, Z.; and Zhang, Z. 2024. Diff-instruct: A universal approach for transferring knowledge from pre-trained diffusion models. Advances in Neural Information Processing Systems, 36.

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
li是什么元素
li是什么元素

li是HTML标记语言中的一个元素,用于创建列表。li代表列表项,它是ul或ol的子元素,li标签的作用是定义列表中的每个项目。本专题为大家li元素相关的各种文章、以及下载和课程。

437

2023.08.03

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

500

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2918

2024.08.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

25

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

43

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

50

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

92

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1万人学习

进程与SOCKET
进程与SOCKET

共6课时 | 0.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号