0

0

无障碍出行更安全!字节跳动研究成果获CVPR2022 AVA竞赛冠军

WBOY

WBOY

发布时间:2023-04-08 23:01:06

|

2085人浏览过

|

来源于51CTO.COM

转载

近日,CVPR2022各项竞赛结果陆续公布, 字节跳动智能创作AI平台「Byte-IC-AutoML」团队在基于合成数据的实例分割挑战赛( Accessibility Vision and Autonomy Challenge ,下文简称AVA) 中,凭借自研的 Parallel Pre-trained Transformers (PPT) 框架脱颖而出,成为该比赛唯一赛道的冠军。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

无障碍出行更安全!字节跳动研究成果获CVPR2022 AVA竞赛冠军

论文地址https://www.php.cn/link/ede529dfcbb2907e9760eea0875cdd12

本届AVA竞赛由波士顿大学(Boston University)和卡耐基梅隆大学(Carnegie Mellon University)联合举办。

竞赛通过渲染引擎得到一个合成的实例分割数据集,其中包含与残疾行人交互的自治系统的数据样例。竞赛目标是为无障碍相关人与物提供目标检测和实例分割的基准和方法

无障碍出行更安全!字节跳动研究成果获CVPR2022 AVA竞赛冠军

数据集可视化


竞赛难点分析

  1. 领域泛化问题:本次比赛数据集均为渲染引擎合成的图像, 数据 domain 和自然图像存在显著差异;
  2. 长尾/少样本问题:数据存在长尾分布, 如 "拐杖" 和 "轮椅" 类别在数据集中更少, 分割效果也更差;
  3. 分割鲁棒性问题:些类别的分割效果非常差, 实例分割 mAP 比目标检测分割 mAP 低 30

技术方案详解

无障碍出行更安全!字节跳动研究成果获CVPR2022 AVA竞赛冠军

Byte-IC-AutoML团队提出了一个Parallel Pre-trained Transformers (PPT)框架来完成。框架主要由三个模块组成:1)并行的大规模预训练的Transformers;2)Balance Copy-Paste 数据增强;3)像素级别的非极大值抑制和模型融合;

并行大规模预训练Transformers

最近很多的预训练文章表明,大规模数据集预训练的模型可以很好地泛化到不同的下游场景中。因此,团队使用 COCO BigDetection 数据集先对模型进行预训练,这可以较大程度地缓解自然数据和合成数据之间的领域偏差,以便可以在下游的合成数据场景中用较少的样本快速训练。在模型层面, 考虑到 Vision Transformers 没有 CNN 的归纳偏置, 更能享受预训练带来的好处,团队使用 UniFormer CBNetV2。UniFormer 统一了 convolution 和 self-attention,同时解决 local redundancy 和 global dependency 两大问题,实现高效的特征学习。CBNetV2 架构串接多个相同的主干分组,这些主干通过复合连接来构建高性能检测器。模型的主干特征提取器都是 Swin Transformer。多个大规模预训练的 Transformers 通过并行的方式排列,输出的结果进行集成学习输出最终的结果。

无障碍出行更安全!字节跳动研究成果获CVPR2022 AVA竞赛冠军

不同方法在验证数据集上的mAP

Balance Copy-Paste 数据增强

Copy-Paste技术通过随机粘贴对象为实例分割模型提供了令人印象深刻的结果,尤其是对于长尾分布下的数据集。然而,这种方法均衡地增加了所有类别的样本,并没能从根本上缓解类别分布的长尾问题。因此,团队提出了Balance Copy-Paste 数据增强方法。Balance Copy-Paste 根据类别的有效数量自适应地对类别进行采样,提高了整体的样本质量,缓解了样本数少和长尾分布的问题, 最终大幅提升了模型在实例分割上的 mAP。

听脑AI
听脑AI

听脑AI语音,一款专注于音视频内容的工作学习助手,为用户提供便捷的音视频内容记录、整理与分析功能。

下载

无障碍出行更安全!字节跳动研究成果获CVPR2022 AVA竞赛冠军

Balance Copy-Paste数据增强技术带来的提升

像素级别的非极大值抑制和模型融合

无障碍出行更安全!字节跳动研究成果获CVPR2022 AVA竞赛冠军

验证集上的模型融合消融实验

无障碍出行更安全!字节跳动研究成果获CVPR2022 AVA竞赛冠军

测试集上的模型融合消融实验

目前,城市和交通数据集更多的是通用场景, 只包含正常的交通工具和行人,数据集中缺乏关于残疾人及行动不便的人, 以及其辅助设备的类别,利用当前已有数据集得到的检测模型无法检测出这些人与物体。

字节跳动Byte-IC-AutoML团队的这项技术方案,对目前自动驾驶和街道场景理解有广泛应用:经过这些合成数据得到的模型可以识别出“轮椅”,“在轮椅上的人”,“拄拐杖的人”等少见的类别,不但能更加精细地对人群/物体进行划分, 而且不会错判误判导致场景理解错误。此外, 通过这种合成数据的方式, 可以构造出真实世界中比较少见类别的数据, 从而训练更加通用, 更加完善的目标检测模型。

智能创作是字节跳动的多媒体创新科技研究所和综合型服务商。覆盖了计算机视觉、图形学、语音、拍摄编辑、特效、客户端、AI平台、服务端工程等技术领域,在部门内部实现了前沿算法-工程系统-产品全链路的闭环,旨在以多种形式向公司内部各业务线以及外部合作客户提供业界最前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。团队技术能力正通过火山引擎对外开放。

火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。



热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

77

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

40

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

67

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

47

2025.11.27

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

500

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2923

2024.08.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

42

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

79

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

234

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号