0

0

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

WBOY

WBOY

发布时间:2023-05-25 15:10:35

|

1705人浏览过

|

来源于51CTO.COM

转载

一年一度的CVPR即将在6月18-22日加拿大温哥华正式开幕。

每年,来自世界各地的成千上万的CV研究人员和工程师聚集在一起参加顶会。这个久负盛名的会议可以追溯到1983年,它代表了计算机视觉发展的巅峰。

目前,CVPR的h5指数所有会议或出版物中位列第四,仅次于《自然》、《科学》和《新英格兰医学杂志》。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

前段时间,CVPR公布了论文接收结果。根据官网上统计数据,一共接受论文9155篇,录用2359篇,接受率为25.8%。

此外,还公布了12篇获奖候选论文。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

那么,今年的CVPR有哪些亮点?从录用论文中我们又能看到CV领域有哪些趋势?

接下来一并揭晓。

CVPR一览

初创公司Voxel51就所有被接收论文列表中进行了分析。

先来整体看一张论文标题的汇总图,每个字的大小与数据集中出现的频率成正比。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

简要说明

- 2359篇论文被接收(9155份论文提交)

- 1724篇Arxiv论文

- 68份文件提交到其他地址

每篇论文的作者

- CVPR论文的平均作者约为5.4人

- 论文当中作者最多的是: 「Why is the winner the best?」有125位作者

- 有13篇论文只有一个作者。

主要Arxiv分类

在1724篇Arxiv论文中,有1545篇,或者说接近90%的论文将cs.CV列为主要类别。

cs.LG位列第二,有101篇。eess.IV (26)和 cs.RO (16)也分得一杯羹。

CVPR 论文的其他类别包括: cs.HC,cs.CV,cs.AR,cs.DC,cs.NE,cs.SD,cs.CL,cs.IT,cs.CR,cs.AI,cs.MM,cs.GR,eess.SP,eess.AS,math.OC,math.NT,physics.data-an和stat.ML。

「Meta」数据

- 「数据集」和「模型」这2个词共同出现在567篇摘要中。「数据集」在265篇论文摘要中单独出现,而「模型」则单独出现了613次。只有16.2%的 CVPR接收论文没有包含这两个词。

- 根据CVPR论文摘要,今年最受欢迎的数据集是ImageNet(105),COCO(94),KITTI(55)和CIFAR(36)。

- 28篇论文提出了一个新的「基准」。

缩写词比比皆是

似乎没有首字母缩略词就没有机器学习项目。2359篇论文中,1487篇的标题有多个大写字母的缩略词或复合词,占比63%。

这些首字母缩略词中有一些很容易记住,甚至可以脱口而出:

- CLAMP: Prompt-based Contrastive Learning for Connecting Language and Animal PoseCLAMP

- PATS: Patch Area Transportation with Subdivision for Local Feature Matching

- CIRCLE: Capture In Rich Contextual Environments

有些则要复杂得多:

- SIEDOB: Semantic Image Editing by Disentangling Object and Background

- FJMP: Factorized Joint Multi-Agent Motion Prediction over Learned Directed Acyclic Interaction GraphsFJMP

他们中的一些人似乎在首字母缩略词构建上借鉴了别人的创意:

- scotch and soda: a transformer video shadow detection framework(荷兰流行潮牌scotch & soda)

- EXCALIBUR: Encouraging and Evaluating Embodied Exploration(Ex咖喱棒,笑)

什么最热?

除了2023年的论文标题,我们抓取了2022年所有接受的论文标题。从这两个列表中,我们计算了各种关键词的相对频率,从让大家对什么是上升趋势、什么是下降趋势有更深入的了解。

模型

2023年,扩散模型(Diffusion models)占据了主导地位。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

扩散模型

随着Stable Diffusion和Midjourney等图像生成模型的走红,扩散模型发展的火热趋势也就不足为奇了。

扩散模型在去噪、图像编辑和风格转换方面也有应用。把所有这些加起来,到目前为止,它是所有类别中最大的赢家,比去年同期增长了573% 。

辐射场

神经辐射场(NERF)也越来越受欢迎,论文中使用单词「radiance」增加了80% ,「NERF」增加了39% 。NeRF已经从概念验证转向编辑、应用和训练过程优化。

Transformers

「Transformer」和「ViT」的使用率下降并不意味着Transformer模型过时,而是反映了这些模型在2022年的主导地位。2021年,「Transformer」这个词只出现在37篇论文中。2022年,这个数字飙升至201。Transformer不会很快消失。

CNN

CNN曾经是计算机视觉的宠儿,到了2023年,似乎失去了它们的优势,使用率下降了68%。许多提到 CNN 的标题也提到了其他模型。例如,这些论文提到了CNN和Transformer:

- Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth EstimationLite-Mono

- Learned Image Compression with Mixed Transformer-CNN Architectures

任务

掩码任务和掩码图像建模相结合,在CVPR中占据了主导地位。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

生成

传统的判别任务,如检测、分类和分割并没有失宠,但是由于生成应用的一系列进步,它们在CV的份额正在缩小,包括「编辑」、「合成」以及「生成」的上升就证明这点。

掩码

关键字「mask」比去年同期增长了263% ,在2023年被接收的论文中出现了92次,有时在一个标题中出现了2次。

- SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance SegmentationSIM

- DynaMask: Dynamic Mask Selection for Instance SegmentationDynaMask

但大多数(64%)实际上指的是「掩码」任务,包括8个「掩码图像建模」和15个「掩码自动编码器」任务。此外,还有8篇出现「掩码」。

同样值得注意的是,3篇带有单词「mask」的论文标题实际上指的是「无掩码」任务。

零样本vs小样本

随着迁移学习、生成方法、提示和通用模型的兴起,「零样本」学习正在获得关注。与此同时,「小样本」学习比去年有所下降。然而,就原始数字而言,至少目前而言,「小样本」(45)比「零样本」(35)略有优势。

模态

2023年,多模态和跨模态应用加速发展。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

边界模糊

虽然传统计算机视觉关键词如「图像」和「视频」的频率相对保持不变,但「文本」/「语言」和「音频」出现的频率更高。

即使「多模态」这个词本身没有在论文标题中出现,也很难否认计算机视觉正在走向多模态的未来。

这在视觉-语言任务中尤其明显,正如「开放」、「提示」和「词汇」的急剧上升所表明的那样。

这种情况最极端的例子是「开放词汇」这个复合词,它在2022年只出现了3次,但在2023年出现了18次。

CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型

深入挖掘CVPR 2023论文标题中的关键词

点云9

三维计算机视觉应用正在从以二维图像推断3D信息(「深度」和「立体」)转向直接在3D点云数据上进行工作的计算机视觉系统。

CV标题的创造力

如果不将ChatGPT纳入其中,2023年任何与机器学习相关的全面报道都是不完整的。我们决定让事情变得有趣,并使用ChatGPT来寻找CVPR 2023中最有创意的标题。

对于每一篇上传到Arxiv的论文,我们抓取了摘要,并要求 ChatGPT (GPT-3.5 API)为相应的CVPR论文生成一个标题。

然后,我们将这些由ChatGPT生成的标题和实际的论文标题,使用OpenAI的text-embedding-ada-002模型生成嵌入向量,并计算ChatGPT生成的标题和作者生成的标题之间的余弦相似度。

这可以告诉我们什么?ChatGPT越接近实际的论文标题,这个标题就越可预测。换句话说,ChatGPT的预测越「偏」,作者给论文命名的「创造性」就越强。

嵌入和余弦相似度为我们提供了一个有趣的,尽管远非完美的,量化方法。

我们按照这个指标对论文进行了排序。话不多说,下面是最具创造性的标题:

实际的标题:Tracking Every Thing in the Wild

预测的标题:Disentangling Classification from Tracking: Introducing TETA for Comprehensive Benchmarking of Multi-Category Multiple Object Tracking

天工大模型
天工大模型

中国首个对标ChatGPT的双千亿级大语言模型

下载

实际的标题:Learning to Bootstrap for Combating Label Noise

预测的标题:Learnable Loss Objective for Joint Instance and Label Reweighting in Deep Neural Networks

实际的标题:Seeing a Rose in Five Thousand Ways

预测的标题:Learning Object Intrinsics from Single Internet Images for Superior Visual Rendering and Synthesis

实际的标题:Why is the winner the best?

预测的标题:Analyzing Winning Strategies in International Benchmarking Competitions for Image Analysis: Insights from a Multi-Center Study of IEEE ISBI and MICCAI 2021

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
ChatGPT注册
ChatGPT注册

ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。

559

2023.09.12

国内免费ChatGPT大全
国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型,由OpenAI开发。它是GPT的一个变体,专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人,可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题,希望对大家能有所帮助。

616

2023.10.25

手机安装chatgpt的方法
手机安装chatgpt的方法

手机安装chatgpt的方法:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

3043

2024.03.05

chatgpt国内可不可以使用
chatgpt国内可不可以使用

chatgpt在国内可以使用,但不能注册,港澳也不行,用户想要注册的话,可以使用国外的手机号进行注册,注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

1100

2024.03.05

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

74

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

38

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

83

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

97

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Midjourney基础课程
Midjourney基础课程

共16课时 | 1.3万人学习

10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号