0

0

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

王林

王林

发布时间:2023-10-05 21:17:03

|

955人浏览过

|

来源于51CTO.COM

转载

Kacha
Kacha

KaCha是一款革命性的AI写真工具,用AI技术将照片变成杰作!

下载

本周,国际计算机视觉大会 iccv(international conference on computer vision)在法国巴黎开幕。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

作为全球计算机视觉领域顶级的学术会议,ICCV 每两年召开一次。

和 CVPR 一样,ICCV 的热度屡创新高。

在今天的开幕式上,ICCV 官方公布了今年的论文数据:本届 ICCV 投稿总数达到 8068 篇,其中有 2160 篇被接收,录用率为 26.8%,略高于上一届 ICCV 2021 的录用率 25.9%

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

关于论文主题,官方也发布了相关数据:多视角和传感器的3D技术热度最高

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

在今天的开幕式上,最重要的部分是宣布获奖信息。现在,让我们逐一揭晓最佳论文、最佳论文提名和最佳学生论文

最佳论文 - 马尔奖

共有两篇论文获得今年的最佳论文(马尔奖)。

第一篇来自多伦多大学的研究者。

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖


  • 论文地址:https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf
  • 作者:Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos
  • 机构:多伦多大学

摘要:本文考虑在极端的时间尺度范围内,同时(秒到皮秒)对动态场景进行成像的问题,并且是被动地进行成像,没有太多的光,也没有来自发射它的光源的任何定时信号。由于单光子相机现有的通量估计(flux estimation)技术在这种情况下会失效,因此本文开发了一种通量探测理论,该理论从随机微积分中汲取见解,从而能够从单调增加的光子检测时间戳流中重建像素的时变通量。 

本文利用这一理论来表明,无源自由运行SPAD相机在低通量条件下具有可实现的频率带宽,可以跨越整个DC到31 GHz的范围。同时,本文还推导出了一种新颖的傅里叶域通量重建算法,并确保该算法的噪声模型在非常低的光子计数或不可忽略的死区时间下仍然有效

通过实验展示了这种异步成像机制的潜力:(1)对于由以不同速度运行的光源(如灯泡、投影仪、多个脉冲激光器)同时照明的场景进行成像,无需同步;(2)实现被动非视距视频采集;(3)记录超宽带视频,稍后以30 Hz的速度播放以展示日常运动,也可以以慢十亿倍的速度播放以展示光本身的传播

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

第二篇就是我们所熟知的 ControNet。

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

  • 论文地址:https://arxiv.org/pdf/2302.05543.pdf
  • 作者:Lvmin Zhang、Anyi Rao、Maneesh Agrawala
  • 机构:斯坦福大学

摘要:本研究提出了一种名为ControlNet的端到端神经网络架构。该架构通过添加额外的条件来控制扩散模型(如稳定扩散),以改善图像生成效果。同时,ControlNet能够实现线稿生成全彩图、生成具有相同深度结构的图像,并通过手部关键点优化手部生成效果等

ControlNet 的核心思想是在文本描述之外添加一些额外条件来控制扩散模型(如 Stable Diffusion),从而更好地控制生成图像的人物姿态、深度、画面结构等信息。

这里的额外条件以图像的形式来输入,模型可以基于这张输入图像进行 Canny 边缘检测、深度检测、语义分割、霍夫变换直线检测、整体嵌套边缘检测(HED)、人体姿态识别等,然后在生成的图像中保留这些信息。利用这一模型,我们可以直接把线稿或涂鸦转换成全彩图,生成具有同样深度结构的图等等,通过手部关键点还能优化人物手部的生成。

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

请参阅机器之心的报道《AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用》以获取更详细的介绍

最佳论文提名:SAM

今年四月,Meta发布了名为「分割一切(SAM)」的人工智能模型,该模型能够为任何图像或视频中的物体生成掩码,这让计算机视觉领域的研究者们感到非常震惊,有人甚至说「计算机视觉不复存在了」

如今,这篇备受关注的论文摘的最佳论文提名。

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

  • 论文地址:https://arxiv.org/abs/2304.02643
  • 机构:Meta AI

重写后的内容:在解决分割问题之前,通常有两种方法。第一种是交互式分割,这种方法可以用来分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。第二种是自动分割,可以用来分割预先定义的特定对象类别(例如猫或椅子),但需要大量手动注释对象来进行训练(例如数千甚至数万个分割猫的例子)。然而,这两种方法都没有提供通用的、全自动的分割方法

Meta 提出的 SAM 很好的概括了这两种方法。它是一个单一的模型,可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、框选、文本等),就可以完成范围广泛的分割任务

总结一下,这些功能使得SAM能够适应新的任务和领域。这种灵活性在图像分割领域是独一无二的

详细介绍请参考机器之心报道:《CV 不存在了?Meta 发布「分割一切」AI 模型,CV 或迎来 GPT-3 时刻》

最佳学生论文

该研究由来自康奈尔大学、谷歌研究院和 UC 伯克利的研究者共同完成,一作是来自 Cornell Tech 的博士生 Qianqian Wang。他们联合提出了一种完整且全局一致的运动表征 OmniMotion,并提出一种新的测试时(test-time)优化方法,对视频中每个像素进行准确、完整的运动估计。 

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

  • 论文地址:https://arxiv.org/abs/2306.05422
  • 项目主页:https://omnimotion.github.io/

摘要:在计算机视觉领域,常用的运动估计方法有两种:稀疏特征追踪和密集光流。但这两种方法各有缺点,稀疏特征追踪不能建模所有像素的运动;密集光流无法长时间捕获运动轨迹。

该研究提出的 OmniMotion 使用 quasi-3D 规范体积来表征视频,并通过局部空间和规范空间之间的双射(bijection)对每个像素进行追踪。这种表征能够保证全局一致性,即使在物体被遮挡的情况下也能进行运动追踪,并对相机和物体运动的任何组合进行建模。该研究通过实验表明所提方法大大优于现有 SOTA 方法。

请参考机器之心报道《随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了》以获取更详细的介绍

今年 ICCV 除了这些获奖论文外,还有许多其他优秀论文值得大家关注。以下是17篇获奖论文的初始清单

ICCV 2023宣布ControlNet和「分割一切」等热门论文获奖

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4126

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

494

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2904

2024.08.16

传感器故障解决方法
传感器故障解决方法

传感器故障排除指南:识别故障症状(如误读或错误代码)。检查电源和连接(确保连接牢固,无损坏)。校准传感器(遵循制造商说明)。诊断内部故障(目视检查、信号测试、环境影响评估)。更换传感器(选择相同规格,遵循安装说明)。验证修复(检查信号准确性,监测异常行为)。

498

2024.06.04

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

22

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

48

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

93

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

216

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

412

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号