0

0

开挖扩散模型小动作,生成图像几乎原版复制训练数据,隐私要暴露了

王林

王林

发布时间:2023-04-12 22:22:01

|

1324人浏览过

|

来源于51CTO.COM

转载

去噪扩散模型是一类新兴的生成神经网络,通过迭代去噪过程从训练分布中生成图像。与之前的方法(如 GANs 和 VAEs)相比,这类扩散模型产生的样本质量更高,且更容易扩展和控制。因此,经过快速发展,它们已经可以生成高分辨率图像,而公众也对诸如 DALL-E 2 这样的大型模型产生了极大的兴趣。

生成扩散模型的魅力在于它们合成新图像的能力,从表面上看,这些图像不同于训练集中的任何东西。而事实上,过去大规模的训练工作没有发现过拟合会成为问题,隐私敏感领域的研究人员甚至建议可以用扩散模型来保护隐私,通过生成合成示例来生成真实图像。这一系列的工作是在扩散模型没有记忆和重新生成训练数据的假设下进行的。而这样做将违反所有的隐私保障,并滋生模型泛化和数字伪造方面的许多问题。

本文中,来自谷歌、 DeepMind 等机构的研究者证明了 SOTA 扩散模型确实可以记忆和重新生成单个训练示例。

图片

论文地址:https://arxiv.org/pdf/2301.13188v1.pdf

首先,研究提出并实现了图像模型中记忆的新定义。然后,研究设计了分为两阶段的数据提取入侵(data extraction attack),使用标准方法生成图像,并对一些图像进行标记。研究将该方法应用于 Stable Diffusion 和 Imagen,从而提取了 100 多个几乎相同的训练图像副本,这些图像中,既有个人可识别照片也有商标 logo(如图 1)。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

为了更好地理解记忆的方式和其中的缘由,研究者在 CIFAR10 上训练了数百个扩散模型,以分析模型精度、超参数、增强和重复数据删除对隐私的影响。扩散模型是研究评估中私密度最低的图像模型形式,它们泄漏的训练数据是 GANs 的两倍之多。更糟的是,研究还发现现有的隐私增强技术无法提供可接受的隐私 - 效用权衡。总的来说,本文强调了日益强大的生成模型和数据隐私之间存在着紧张的关系,并提出了关于扩散模型如何工作以及如何被妥善部署的问题。

为什么要做这项研究?

理解扩散模型如何记忆和重新生成训练数据的背后存在着两个动机。

第一个是了解隐私风险。重新生成从互联网上抓取数据的扩散模型可能会带来与语言模型类似的隐私和版权风险。比方说,已经有人指出,记忆和重新生成受版权保护的文本和源代码存在着潜在的侵权指标。那么同理,复制专业艺术家创作的图像也会被称为数字伪造,艺术界为此展开了一场争论。

第二个是理解泛化。除了数据隐私,理解扩散模型如何以及为什么记忆训练数据有助于理解它们的泛化能力。例如,大规模生成模型的一个常见问题是,它们令人印象深刻的结果是来自真正的生成,还是直接复制和重新混合训练数据的结果。通过研究记忆,可以提供生成模型执行这种数据复制速率的具体经验描述。

从 SOTA 扩散模型中提取数据

从 Stable Diffusion 中提取数据

现在从 Stable Diffusion(最大、最流行的开源扩散模型)中提取训练数据。

本次提取将先前工作的方法应用于图像,包括两个步骤:

1. 使用标准抽样方式的扩散模型并使用前一节的已知 prompt 生成多个示例。

2. 进行推理,将新一代的模型与已记忆的训练模型相分离。

为了评估入侵的有效性,研究从训练数据集中选择了 35 万个重复次数最多的示例,并为每个提示生成 500 个候选图像(总共生成 1.75 亿张图像)。

首先,研究对所有这些生成的图像进行排序,以确定哪些是记忆训练数据生成的图像。然后,将这些生成的每张图像与论文中定义 1 下的训练图像进行比较,并将每张图像注释为提取或未提取。研究发现有 94 张图像被提取,为了确保这些图像不仅是符合某些任意的定义,研究还通过视觉分析手动注释了前 1000 张生成的图像,这些图像要么是记忆的,要么是没有记忆的,并且发现另外 13 张(总共 109 张图像)几乎是训练示例的副本,即使它们不符合研究 L_2 范数定义。图 3 显示了提取图像的子集,这些图像以近乎完美像素的精度再现。

图片

Quillbot
Quillbot

一款AI写作润色工具,QuillBot的人工智能改写工具将提高你的写作能力。

下载

实验还给出了在有给定带注释的有序图像集的情况下,计算曲线,评估提取的图像数量与入侵的假阳性率。入侵异常精确:在 1.75 亿张生成的图像中,可以识别出 50 张 0 假阳性的记忆图像,并且所有的记忆图像都可以以 50% 以上的精度提取。图 4 包含了两种记忆定义的精度 - 召回曲线。

图片

从图像中提取数据

尽管 Stable Diffusion 是目前公开可用的扩散模型中最佳选择,但一些非公开模型使用更大的模型和数据集获得了更强的性能。先前研究发现,较大的模型更容易记住训练数据,因此该研究对 Imagen(一个 20 亿参数的文本 - 图像扩散模型)展开了研究。

令人惊讶的是,研究发现在 Imagen 中入侵非分布图像比在 Stable Diffusion 中更有效。在 Imagen 上,研究尝试提取出 500 张 out-of - distribution(OOD)得分最高的图像。Imagen 记忆并复制了其中 3 个图像(这三个图像在训练数据集中是独有的)。相比之下,当研究将相同的方法应用于 Stable Diffusion 时,即使在尝试提取 10,000 个最离群的样本后,也未能识别任何记忆。因此,在复制和非复制图像上,Imagen 比 Stable Diffusion 的私密性更差。这可能是由于 Imagen 使用的模型比 Stable Diffusion 更大,因此记得的图像也就更多。此外,Imagen 在更小的数据集上进行了更多的迭代训练,这也可以有助于提高记忆水平。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2115

2024.08.16

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

8

2026.01.30

c++ 字符串格式化
c++ 字符串格式化

本专题整合了c++字符串格式化用法、输出技巧、实践等等内容,阅读专题下面的文章了解更多详细内容。

8

2026.01.30

java 字符串格式化
java 字符串格式化

本专题整合了java如何进行字符串格式化相关教程、使用解析、方法详解等等内容。阅读专题下面的文章了解更多详细教程。

6

2026.01.30

python 字符串格式化
python 字符串格式化

本专题整合了python字符串格式化教程、实践、方法、进阶等等相关内容,阅读专题下面的文章了解更多详细操作。

1

2026.01.30

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

20

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

17

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

18

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

3

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.7万人学习

Go 教程
Go 教程

共32课时 | 4.4万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号