0

0

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

WBOY

WBOY

发布时间:2024-04-15 18:22:15

|

873人浏览过

|

来源于51CTO.COM

转载

神经网络作为深度学习技术的基础已经在诸多应用领域取得了有效成果。在实践中,网络架构可以显著影响学习效率,一个好的神经网络架构能够融入问题的先验知识,确立网络训练,提高计算效率。目前,经典的网络架构设计方法包括人工设计、神经网络架构搜索(NAS)[1]、以及基于优化的网络设计方法 [2]。人工设计的网络架构如 ResNet 等;神经网络架构搜索则通过搜索或强化学习的方式在搜索空间中寻找最佳网络结构;基于优化的设计方法中的一种主流范式是算法展开(algorithm unrolling),该方法通常在有显式目标函数的情况下,从优化算法的角度设计网络结构。 这些方法在优化算法的角度设计网络结构时,从优化算法的角度设计网络结构。

现今有经典神经网络架构设计大多忽略了网络的万有逼近性——这是神经网络具备强大性能的关键因素之一。因此,这些设计方法在一定程度上失去了网络的先验性能保障。尽管两层神经网络在宽度趋于无穷的时候已具有万有逼近性质 [3],在实际中,我们通常只能考虑有限宽度的网络结构,这方面的表现分析的结果十分有限。实际上,启发性的人工设计,还是黑匣性质的神经网络架构搜索,都很难在网络设计中考虑万有逼近性质。基于优化的神经网络设计虽然相对更具解释性,但其通常需要一个明显的目标函数,这使得设计的网络结构种类有限,限制了其应用范围。如何系统性地设计工具有万有逼近性质的神经网络架构,仍然是一个重要的问题。

北京大学林宙辰教授团队提出了一种基于优化算法设计工具的神经网络架构,该方法通过将基于梯度的一阶优化算法与基于哈希的二阶优化算法相结合,提高了训练速度和收敛性能,并且增强了神经网络的鲁棒性保障。该神经网络模块也可用于现有基于模块化的网络设计方法,并且不断提高了模型的表现。最近,他们通过分析神经网络微分方程(NODE)的逼近性质,证明了跨层连接的神经网络具有万有近似性质,并利用提出的框架设计了ConvNext、ViT等变种网络,取得了超越baseline的结果。该论文被人工智能顶刊TPAMI接收。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

  • 论文:Designing Universally-Approximating Deep Neural Networks: A First-Order Optimization Approach
  • 论文地址:https://ieeexplore.ieee.org/document/10477580

方法简介

传统的基于优化的神经网络设计方法常常从一个具有显式表达式的目标函数出发,采用特定的优化算法进行求解,再将优化结果映射为神经网络结构,例如著名的 LISTA-NN 就是利用 LISTA 算法求解 LASSO 问题所得到的显式表达式,将优化结果转化为神经网络结构 [4]。这种方法对于目标函数的显式表达式有着很强的依赖性,因此所得到的网络结构只能针对目标函数的显式表达式进行优化,存在着设计出不符合实际情况的假设的风险。 一些研究者尝试通过自定义目标函数,再利用算法展开等方法设计网络结构,但他们也需要如权重重绑定等实际情况下不一定符合假设的假设。因此,一些研究者提出使用基于神经网络的进化算法进行网络架构搜索,来获取更加合理的网络结构。

网络架构设计方案的更新格式应遵循从一阶优化算法到更近点算法的思路,进行逐步优化。例如,可以将欧拉角算法改为四元数算法,或者采用更加高效的迭代算法来近似求解。更新格式应考虑增加计算精度和提高运行效率。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

其中一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法表示第 k 步更新时的(步长)系数,再将梯度项替换为神经网络中的可学习模块 T,即可得到 L 层神经网络的骨架:

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

整体方法框架见图 1。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 1 网络设计图示

论文提出的方法可以启发设计 ResNet、DenseNet 等经典网络,并且解决了传统基于优化设计网络架构的方法局限于特定目标函数的问题。

模块选取与架构细节

该方法所设计的网络模块 T 只要求有包含两层网络结构,即一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法,作为其子结构,即可保证所设计的网络具有万有逼近性质,其中所表达的层的宽度是有限的(即不随逼近精度的提高而增长),整个网络的万有逼近性质不是靠加宽一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法的层来获得的。模块 T 可以是 ResNet 中广泛运用的 pre-activation 块,也可以是 Transformer 中的注意力 + 前馈层的结构。T 中的激活函数可以是 ReLU、GeLU、Sigmoid 等常用激活函数。还可以根据具体任务在中添加对应的归一化层。另外,一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法时,设计的网络是隐式网络 [5],可以用不动点迭代的方法逼近隐格式,或采用隐式微分(implicit differentiation)的方法求解梯度进行更新。

通过等价表示设计更多网络

该方法不要求同一种算法只能对应一种结构,相反,该方法可以利用优化问题的等价表示设计更多的网络架构,体现其灵活性。例如,线性化交替方向乘子法通常用于求解约束优化问题:一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法通过令一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法即可得到一种可启发网络的更新迭代格式:

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

其启发的网络结构可见图 2。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 2 线性化交替方向乘子法启发的网络结构

启发的网络具有万有逼近性质

Vondy
Vondy

下一代AI应用平台,汇集了一流的工具/应用程序

下载

对该方法设计的网络架构,可以证明,在模块满足此前条件以及优化算法(在一般情况下)稳定、收敛的条件下,任意一阶优化算法启发的神经网络在高维连续函数空间具有万有逼近性质,并给出了逼近速度。论文首次在有限宽度设定下证明了具有一般跨层连接的神经网络的万有逼近性质(此前研究基本集中在 FCNN 和 ResNet,见表 1),论文主定理可简略叙述如下:

主定理(简略版):设一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法 A 是一个梯度型一阶优化算法。若算法 A 具有公式 (1) 中的更新格式,且满足收敛性条件(优化算法的常用步长选取均满足收敛性条件。若在启发网络中均为可学习的,则可以不需要该条件),则由算法启发的神经网络:

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

在连续(向量值)函数空间一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法以及范数一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法下具有万有逼近性质,其中可学习模块 T 只要有包含两层形如一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法的结构(σ 可以是常用的激活函数)作为其子结构都可以。

常用的 T 的结构如:

1)卷积网络中,pre-activation 块:BN-ReLU-Conv-BN-ReLU-Conv (z),

2)Transformer 中:Attn (z) + MLP (z+Attn (z)).

主定理的证明利用了 NODE 的万有逼近性质以及线性多步方法的收敛性质,核心是证明优化算法启发设计的网络结构恰对应一种收敛的线性多步方法对连续的 NODE 的离散化,从而启发的网络 “继承” 了 NODE 的逼近能力。在证明中,论文还给出了 NODE 逼近 d 维空间连续函数的逼近速度,解决了此前论文 [6] 的一个遗留问题。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 1 此前万有逼近性质的研究基本集中在 FCNN 和 ResNet

实验结果

论文利用所提出的网络架构设计框架设计了 8 种显式网络和 3 种隐式网络(称为 OptDNN),网络信息见表 2,并在嵌套环分离、函数逼近和图像分类等问题上进行了实验。论文还以 ResNet, DenseNet, ConvNext 以及 ViT 为 baseline,利用所提出的方法设计了改进的 OptDNN,并在图像分类的问题上进行实验,考虑准确率和 FLOPs 两个指标。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 2 所设计网络的有关信息

首先,OptDNN 在嵌套环分离和函数逼近两个问题上进行实验,以验证其万有逼近性质。在函数逼近问题中,分别考虑了逼近 parity function 和 Talgarsky function,前者可表示为二分类问题,后者则是回归问题,这两个问题都是浅层网络难以逼近的问题。OptDNN 在嵌套环分离的实验结果如图 3 所示,在函数逼近的实验结果如图 3 所示,OptDNN 不仅取得了很好的分离 / 逼近结果,而且比作为 baseline 的 ResNet 取得了更大的分类间隔和更小的回归误差,足以验证 OptDNN 的万有逼近性质。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 3 OptNN 逼近 parity function


一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 4 OptNN 逼近 Talgarsky function

然后,OptDNN 分别在宽 - 浅和窄 - 深两种设定下在 CIFAR 数据集上进行了图像分类任务的实验,结果见表 3 与 4。实验均在较强的数据增强设定下进行,可以看出,一些 OptDNN 在相同甚至更小的 FLOPs 开销下取得了比 ResNet 更小的错误率。论文还在 ResNet 和 DenseNet 设定下进行了实验,也取得了类似的实验结果。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 3 OptDNN 在宽 - 浅设定下的实验结果

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 4 OptDNN 在窄 - 深设定下的实验结果

论文进一步选取了此前表现较好的 OptDNN-APG2 网络,进一步在 ConvNext 和 ViT 的设定下在 ImageNet 数据集上进行了实验,OptDNN-APG2 的网络结构见图 5,实验结果表 5、6。OptDNN-APG2 取得了超过等宽 ConvNext、ViT 的准确率,进一步验证了该架构设计方法的可靠性。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

图 5 OptDNN-APG2 的网络结构

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 5 OptDNN-APG2 在 ImageNet 上的性能比较

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 6 OptDNN-APG2 与等宽(isotropic)的 ConvNeXt 和 ViT 的性能比较

最后,论文依照 Proximal Gradient Descent 和 FISTA 等算法设计了 3 个隐式网络,并在 CIFAR 数据集上和显式的 ResNet 以及一些常用的隐式网络进行了比较,实验结果见表 7。三个隐式网络均取得了与先进隐式网络相当的实验结果,也说明了方法的灵活性。

一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法

表 7 隐式网络的性能比较

总结

神经网络架构设计是深度学习中的核心问题之一。论文提出了一个利用一阶优化算法设计具有万有逼近性质保障的神经网络架构的统一框架,拓展了基于优化设计网络架构范式的方法。该方法可以与现有大部分聚焦网络模块的架构设计方法相结合,可以在几乎不增加计算量的情况下设计出高效的模型。在理论方面,论文证明了收敛的优化算法诱导的网路架构在温和条件下即具有万有逼近性质,并弥合了 NODE 和具有一般跨层连接网络的表示能力。该方法还有望与 NAS、 SNN 架构设计等领域结合,以设计更高效的网络架构。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
function是什么
function是什么

function是函数的意思,是一段具有特定功能的可重复使用的代码块,是程序的基本组成单元之一,可以接受输入参数,执行特定的操作,并返回结果。本专题为大家提供function是什么的相关的文章、下载、课程内容,供大家免费下载体验。

499

2023.08.04

js函数function用法
js函数function用法

js函数function用法有:1、声明函数;2、调用函数;3、函数参数;4、函数返回值;5、匿名函数;6、函数作为参数;7、函数作用域;8、递归函数。本专题提供js函数function用法的相关文章内容,大家可以免费阅读。

166

2023.10.07

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

500

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2922

2024.08.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

25

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

44

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

50

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

92

2026.03.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2.1万人学习

swoole进程树解析
swoole进程树解析

共4课时 | 0.2万人学习

ThinkPHP6.x 微实战--十天技能课堂
ThinkPHP6.x 微实战--十天技能课堂

共26课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号