「稀疏编码」从理论走向实用！马毅教授NeurIPS 2022新作：稀疏卷积性能和稳健性超越ResNet

WBOY

发布时间：2023-04-12 21:46:01

1532人浏览过

来源于51CTO.COM

转载

尽管深度神经网络在图像分类方面具有很强的经验性能（empirical performance），但这类模型往往被视为「黑盒」，最为人诟病的就是「难以解释」。

相比之下，稀疏卷积模型（sparse convolutional models）也是分析自然图像的强大工具，其假设一个信号可以由卷积字典（convolutional dictionary）中的几个元素的线性组合来表达，具有良好的理论可解释性和生物合理性。

但在实际应用中，稀疏卷积模型虽然原理上行得通，但与经验设计的深层网络相比并没有展现出应有的性能优势。

最近，马毅教授研究组在NeurIPS 2022上发表了一篇新论文，回顾了稀疏卷积模型在图像分类中的应用，并成功解决了稀疏卷积模型的经验性能和可解释性之间的不匹配问题。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/pdf/2210.12945.pdf

代码链接：https://github.com/Delay-Xili/SDNet

AIBox 一站式AI创作平台

AIBox365一站式AI创作平台，支持ChatGPT、GPT4、Claue3、Gemini、Midjourney等国内外大模型

下载

文中提出的可微优化层使用卷积稀疏编码（CSC）对标准卷积层进行替换。

结果表明，与传统的神经网络相比，这些模型在 CIFAR-10、 CIFAR-100和 ImageNet 数据集上具有同样强的经验性能。

通过利用稀疏建模的稳定恢复特性，研究人员进一步表明，只需要在稀疏正则化和数据重构项之间进行简单的适当权衡，这些模型就可以对输入损坏以及测试中的对抗性扰动具有更强的鲁棒性。

马毅教授于1995年获得清华大学自动化与应用数学双学士学位，后求学于美国伯克利加州大学，并于1997年获EECS硕士学位，2000年获数学硕士学位与EECS博士学位。

毕业后在美国伊利诺伊大学香槟分校任教，并成为该校电气与计算机工程系历史上最年轻的副教授。

2009年任微软亚洲研究院视觉计算组高级研究员。2014年全职加入上海科技大学信息科学与技术学院。

2018年加入伯克利加州大学和清华-伯克利深圳学院，目前是加利福尼亚大学伯克利分校电子工程与计算机科学系教授，同时也是IEEE Fellow, ACM Fellow, SIAM Fellow

马毅教授的研究兴趣包括 3D 计算机视觉、高维数据的低维模型、可扩展性优化和机器学习，近来的研究主题包括大规模 3D 几何重构和交互以及低维模型与深度网络的关系。

稀疏卷积

虽然深度卷积网络（ConvNets）已经是图像分类的主流方法，并且性能上也超越其他模型，但其内部的组件如卷积、非线性函数和归一化等的具体数据意义还没有得到解释。

而稀疏数据建模在学习可解释表征的能力和强大的理论保证的支持下（例如处理损坏的数据），已被广泛用于许多信号和图像处理应用，但其在ImageNet等数据集上的分类性能仍然不如经验性的深度模型。

即便性能较强的稀疏模型也仍然存在缺陷：

1）需要专门设计网络结构，限制了模型的适用性；

2）训练的计算速度要慢几个数量级；

3）在可解释性和稳健性上没有表现出明显优势。

研究人员在这篇论文中提出了视觉识别框架，通过一个简单的设计证明稀疏建模可以与深度学习相结合，假设层输入可以由所有数据点所共享的字典中的几个原子（atoms）来表示，从而获得了与标准ConvNets相同的性能，同时具有更好的层级可解释性和稳定性。

该方法将稀疏建模封装在一个隐层（implicit layer）中，并将其作为标准ConvNets中卷积层的替代。

相对于经典的全连接或卷积层中所使用的显式函数（explicit function），隐层使用隐函数。这篇论文中的隐层基于该层输入和权重参数的优化问题进行定义，隐层的输出就是优化问题的解。

给定一个多维输入信号，可以将层的函数定义为执行反向映射到一个更好的稀疏输出，输出通道数可与输入不同，从而可以找到上述Lasso类型优化问题的一个最优的稀疏解。

该隐层实现了卷积稀疏编码（CSC）模型，其中输入信号被卷积字典中的原子稀疏线性组合所逼近。这种卷积词典可以看作是CSC层的参数，通过反向传播进行训练。

CSC模型的目标是通过A(z)算子重构输入信号，其中特征图z指定了A中卷积过滤器的位置和值。为了对建模差异具有容错度，重建并不要求精确。

基于确定的CSC层的输入-输出映射，就可以通过解决相关的优化来进行前向传播，并通过得出最优系数解相对于输入x和参数A的梯度来进行反向传播。

然后，带有CSC层的整个网络可以通过最小化交叉熵损失，以端到端的方式从标记的数据中进行训练。

实验结果

分类性能对比

实验用到的数据集为CIFAR-10和CIFAR-100，每个数据集包含50,000张训练图像和10,000张测试图像，每张图像的尺寸为32×32，RGB通道。

除了将该方法与标准网络架构ResNet-18和ResNet-34进行比较外，研究人员还与具有隐层架构的MDEQ模型和具有稀疏建模架构的SCN进行比较。

实验结果可以看到，在相似的模型规模下，SDNet-18/34的Top-1准确率与ResNet-18/34相近或更高，同时具有相似的推理速度。结果表明该网络有潜力作为现有数据驱动模型的强大替代品，因为SDNet模型在处理受损图像上有额外的优势。

将SDNet-18模型与模型规模相似的MDEQ模型进行了比较后，可以发现SDNet-18不仅比MDEQ更准确，而且速度也快得多（>7倍）。需要注意的是，MDEQ不能像SDNet那样处理受损的数据。

同样使用稀疏建模的SCN网络获得了Top-1的准确度，但SCN的一个重要缺点是它的训练速度非常慢，原因可能是SCN对图像使用了基于patch的稀疏编码模型，与卷积稀疏编码模型相比，它需要在每个前向传播中解决更多稀疏编码问题，无法从并行计算中受益。

稳健推理处理输入扰动

为了测试该方法对输入扰动的鲁棒性，研究人员使用了CIFAR-10-C数据集，其中的数据被不同类型的合成噪声和不同严重程度所破坏。

由于模型中CSC层对输入信号和重建信号之间的entry-wise差异进行惩罚，所以SDNet理论上应该更适合于处理additive噪声。

所以实验部分主要关注于CIFAR-10-C中四种类型的additive噪声，即高斯噪声、shot噪声、speckle噪声和impulse噪声，然后评估SDNet-18的准确性，并将其性能与ResNet-18进行比较。

可以看到，对于各种类型的噪声和不同的严重程度（除了0、1和2级的impulse噪声），适当选择一个不同于训练时使用的λ值有助于提高测试性能。

特别地，作为λ的函数的准确度曲线表现出一个单模态的形状，性能首先增加，然后减少。此外，在每种数据破坏类型中，达到性能峰值的λ值随着破坏严重程度上升而单调地增加，观察结果与预期一致。

处理对抗性扰动

研究人员在CIFAR-10测试数据集上使用PGD对SDNet（λ=0.1）生成对抗性扰动，扰动的L∞范式为8/255，扰动的L2范式为0.5。

与ResNet-18进行对比可以看到，在λ=0.1的情况下，SDNet的表现并不比ResNet好多少，但可以通过调整参数λ来大幅提高鲁棒性精度。

WorkBuddy技能市场怎么用？直接复用高质量AI技能【攻略】

WorkBuddy新手需要配置哪些参数_WorkBuddy基础配置项目完整说明

Midjourney如何生成海报设计_Midjourney海报制作步骤【操作】

RytrAI如何生成邮件内容_RytrAI邮件写作步骤【方法】

WorkBuddy如何写一份详细的旅游规划行程单_WorkBuddy智能搜集景点与攻略【实用】

相关专题

function是什么

function是函数的意思，是一段具有特定功能的可重复使用的代码块，是程序的基本组成单元之一，可以接受输入参数，执行特定的操作，并返回结果。本专题为大家提供function是什么的相关的文章、下载、课程内容，供大家免费下载体验。

499

2023.08.04

js函数function用法

js函数function用法有：1、声明函数；2、调用函数；3、函数参数；4、函数返回值；5、匿名函数；6、函数作为参数；7、函数作用域；8、递归函数。本专题提供js函数function用法的相关文章内容，大家可以免费阅读。

166

2023.10.07

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4300

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2918

2024.08.16

PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境（CLI）下的开发与应用，内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理，以及与 Linux 定时任务（Cron）的结合使用。通过实战示例，帮助开发者掌握使用 PHP 构建自动化脚本、批处理工具与后台任务程序的能力。

2025.12.13

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板