0

0

谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%

PHPz

PHPz

发布时间:2023-05-16 18:37:06

|

1214人浏览过

|

来源于51CTO.COM

转载

视频是一种无处不在的媒体内容源,涉及到人们日常生活的许多方面。越来越多的现实世界的视频应用,如视频字幕、内容分析和视频问答(VideoQA),都依赖于能够将视频内容与文本或自然语言联系起来的模型。

 其中,视频问答模型尤其具有挑战性,因为它需要同时掌握语义信息,比如场景中的目标,以及时间信息,比如事物如何移动和互动。这两种信息都必须在拥有特定意图的自然语言问题的背景下进行。 此外,由于视频有许多帧,处理全部的帧来学习时空信息,可能在计算上成本过高。 

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%

论文链接:https://arxiv.org/pdf/2208.00934.pdf 为了解决这个问题,在「Video Question Answering with Iterative Video-Text Co-Tokenization」一文中,谷歌和MIT的研究人员介绍了一种视频-文本学习的新方法,称为「迭代共同标记」,能够有效地融合空间、时间和语言信息,用于视频问答的信息处理。

 谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80% 

这种方法是多流的,用独立的骨干模型处理不同规模的视频,产生捕捉不同特征的视频表示,例如高空间分辨率或长时间的视频。 模型应用「共同认证」模块,从视频流与文本的融合中学习有效表示。模型计算效率很高,只需67GFLOPs,比以前的方法至少低了50%,同时比其他SOTA的模型有更好的性能。

视频-文本迭代

该模型的主要目标是从视频和文本(即用户问题)中产生特征,共同允许它们的相应输入进行互动。第二个目标是以有效的方式做到这一点,这对视频来说非常重要,因为它们包含几十到几百帧的输入。

​ 该模型学会了将视频-语言的联合输入标记为较小的标记集,以联合和有效地代表两种模式。在标记化时,研究人员使用两种模式来产生一个联合的紧凑表示,该表示被送入一个转换层以产生下一级的表示。 

这里的一个挑战,也是跨模态学习中的典型问题,就是视频帧往往并不直接对应于相关的文本。研究人员通过增加两个可学习的线性层来解决这个问题,在标记化之前,统一视觉和文本特征维度。这样一来,研究人员就可以让视频和文本都能制约视频标记的学习方式。 

此外,单一的标记化步骤不允许两种模式之间的进一步互动。为此,研究人员使用这个新的特征表示与视频输入特征互动,并产生另一组标记化的特征,然后将其送入下一个转化器层。 这个迭代过程中会创建新的特征或标记,表示对两种模式的联合表示的不断完善。最后,这些特征被输入到生成文本输出的解码器中。 

谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80% 

按照视频质量评估的惯例,在对个别视频质量评估数据集进行微调之前,研究人员对模型进行预训练。 在这项工作中,研究人员使用基于语音识别的文本自动注释的视频,使用HowTo100M数据集,而不是在大型VideoQA数据集上预训练。这种较弱的预训练数据仍然使研究人员的模型能够学习视频-文本特征。

Copy Leaks
Copy Leaks

AI内容检测和分级,帮助创建和保护原创内容

下载

高效视频问答的实现

研究人员将视频语言迭代共同认证算法应用于三个主要的VideoQA基准,MSRVTT-QA、MSVD-QA和IVQA,并证明这种方法比其他最先进的模型取得了更好的结果,同时模型不至于过大。另外,迭代式共同标记学习在视频-文本学习任务上对算力的需求也更低。

 谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80% 

该模型只用67GFLOPS算力,是3D-ResNet视频模型和文本时所需算力(360GFLOP)的六分之一,是X3D模型效率的两倍多。并且生成了高度准确的结果,精度超过了最先进的方法。 

多流视频输入

对于VideoQA或其他一些涉及视频输入的任务,研究人员发现,多流输入对于更准确地回答有关空间和时间关系的问题很重要。

 研究人员利用三个不同分辨率和帧率的视频流:一个低分辨率、高帧率的输入视频流(每秒32帧,空间分辨率64x64,记作32x64x64);一个高分辨率、低帧率的视频(8x224x224);以及一个介于两者之间的(16x112x112)。 

尽管有三个数据流需要处理的信息显然更多,但由于采用了迭代共同标记方法,获得了非常高效的模型。同时,这些额外的数据流允许提取最相关的信息。 

例如,如下图所示,与特定活动相关的问题在分辨率较低但帧率较高的视频输入中会产生较高的激活,而与一般活动相关的问题可以从帧数很少的高分辨率输入中得到答案。

 谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80% 

这种算法的另一个好处是,标记化会根据所问问题的不同而改变。

结论

研究人员提出了一种新的视频语言学习方法,它侧重于跨视频-文本模式的联合学习。研究人员解决了视频问题回答这一重要而具有挑战性的任务。研究人员的方法既高效又准确,尽管效率更高,但却优于目前最先进的模型。

谷歌研究人员的方法模型规模适度,可以通过更大的模型和数据获得进一步的性能改进。研究人员希望,这项工作能引发视觉语言学习方面的更多研究,以实现与基于视觉的媒体的更多无缝互动。

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

8

2026.01.15

公务员递补名单公布时间 公务员递补要求
公务员递补名单公布时间 公务员递补要求

公务员递补名单公布时间不固定,通常在面试前,由招录单位(如国家知识产权局、海关等)发布,依据是原入围考生放弃资格,会按笔试成绩从高到低递补,递补考生需按公告要求限时确认并提交材料,及时参加面试/体检等后续环节。要求核心是按招录单位公告及时响应、提交材料(确认书、资格复审材料)并准时参加面试。

44

2026.01.15

公务员调剂条件 2026调剂公告时间
公务员调剂条件 2026调剂公告时间

(一)符合拟调剂职位所要求的资格条件。 (二)公共科目笔试成绩同时达到拟调剂职位和原报考职位的合格分数线,且考试类别相同。 拟调剂职位设置了专业科目笔试条件的,专业科目笔试成绩还须同时达到合格分数线,且考试类别相同。 (三)未进入原报考职位面试人员名单。

58

2026.01.15

国考成绩查询入口 国考分数公布时间2026
国考成绩查询入口 国考分数公布时间2026

笔试成绩查询入口已开通,考生可登录国家公务员局中央机关及其直属机构2026年度考试录用公务员专题网站http://bm.scs.gov.cn/pp/gkweb/core/web/ui/business/examResult/written_result.html,查询笔试成绩和合格分数线,点击“笔试成绩查询”按钮,凭借身份证及准考证进行查询。

11

2026.01.15

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

65

2026.01.14

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

36

2026.01.13

PHP 高性能
PHP 高性能

本专题整合了PHP高性能相关教程大全,阅读专题下面的文章了解更多详细内容。

75

2026.01.13

MySQL数据库报错常见问题及解决方法大全
MySQL数据库报错常见问题及解决方法大全

本专题整合了MySQL数据库报错常见问题及解决方法,阅读专题下面的文章了解更多详细内容。

21

2026.01.13

PHP 文件上传
PHP 文件上传

本专题整合了PHP实现文件上传相关教程,阅读专题下面的文章了解更多详细内容。

35

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.1万人学习

Go 教程
Go 教程

共32课时 | 3.7万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号