0

0

真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023

絕刀狂花

絕刀狂花

发布时间:2025-04-25 08:16:21

|

740人浏览过

|

来源于php中文网

原创

新智元报道

编辑:LRS

【新智元导读】为了在用户体验中突出关键部分,首先需要吸引用户的注意力。人每时每刻都在处理大量信息,例如每秒钟视网膜接收到的数据量高达10的10次方比特,但人类会选择性地专注于与任务相关或感兴趣的区域,以便进一步处理,例如记忆、理解和采取行动。

真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023对人类注意力的建模,即显著性模型(saliency model),在神经科学、心理学、人机交互(HCI)和计算机视觉等领域正受到越来越多的关注。

预测「哪些区域可能吸引注意力」的能力在图形、摄影、图像压缩和处理以及视觉质量测量等领域具有许多重要的应用。

然而,使用机器学习和基于智能手机的凝视估计来加速眼动研究需要专门的硬件,每台成本高达三万美元,这限制了其广泛应用。

最近,谷歌的研究人员发表了两篇相关领域的研究论文,分别在CVPR 2022和CVPR 2023上发布,研究了如何利用「人类注意力预测模型」来提升用户体验。例如,通过图像编辑操作最大限度地减少视觉混乱、分心或伪影,使用图像压缩加快网页或应用程序的加载,并引导机器学习模型实现更直观的类人解释和模型性能。

这两篇论文主要关注图像编辑和图像压缩,并讨论了在具体应用场景下,关于注意力建模的最新进展。

注意力引导的图像编辑对人体注意力的建模,通常需要将眼睛看到的图像作为输入,如自然图像或网页的屏幕截图,并将预测的热力图作为输出。

预测得到的热力图会根据「眼球跟踪器」或「鼠标悬停/点击」等收集到的实时注意力近似值进行评估。

之前的模型主要利用手工制作的视觉线索特征,如颜色/亮度对比度、边缘和形状等,但最近一些方法开始转向基于深度神经网络来自动学习判别特征,使用的模型包括卷积、递归神经网络以及视觉Transformer网络等。

在CVPR 2022上,谷歌发表的一篇论文中,利用深度显著性模型(deep saliency models)进行视觉逼真的编辑(visually realistic edits),可以显著改变观察者对不同图像区域的注意力。

真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023论文链接:https://www.php.cn/link/c644332952f476c37daa950b502c850e

例如,移除背景中分散注意力的物体可以减少照片的杂乱程度,从而提高用户满意度;同样,在视频会议中,减少背景中的混乱度也可以增加对主要发言者的关注度。

为了探索哪些类型的编辑效果是可实现的,以及这些效果如何影响观众的注意力,研究人员开发了一个优化框架,用于使用可区分的预测显著性模型来引导图像中的视觉注意力。

真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023给定输入图像和表示干扰物区域的二元遮罩,使用显著性预测模型对遮罩内的像素提供指导并编辑图像,降低遮罩区域内的显著性。

为了确保编辑后的图像自然且逼真,研究人员精心选择了四种图像编辑操作符,包括两个标准图像编辑操作(即重新着色和图像扭曲);以及两个可学习的操作符,即多层卷积滤波器和生成模型(GAN)。

利用这些操作符,该框架可以产生各种强大的效果,包括重新着色、修复、伪装、对象编辑、插入以及面部属性编辑,并且所有这些效果都是由单个预训练的显著性模型驱动的,没有任何额外的监督或训练。

真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023减少视觉干扰的例子,由显著性模型与几个操作符引导,干扰物区域被标记在显著性图(红色边框)的顶部。

Peppertype.ai
Peppertype.ai

高质量AI内容生成软件,它通过使用机器学习来理解用户的需求。

下载

需要注意的是,研究人员的目标不是与产生每种效果的专用方法竞争,而是演示如何通过嵌入在深度显著性模型中的知识来指导多个编辑操作。

个性化的显著性建模之前的研究假定单个显著性模型即可完成对全部人群的预测任务,但人类的注意力在个体之间是有差异的:虽然对显著线索的检测是一致的,但具体的顺序、解释和注视分布可能有很大差异,这也为个人或团体提供了创建个性化用户体验的机会。

在CVPR 2023的一篇论文中,谷歌的研究人员引入了一个用户感知的显著性模型,这是首个仅用单模型即可预测某个用户、一组用户和通用人群注意力的框架。

真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023论文链接:https://www.php.cn/link/f40fe967870174ded9323bae71c5ce50

该框架的核心是将每个参与者的视觉偏好与每个用户的注意力热力图和自适应用户遮罩进行组合,需要在训练过程中每个用户的注意力标注都是可用的,可用的数据集包括用于自然图像的OSIE移动的凝视数据集、网页的FiWI和WebSaliency数据集。

真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023该模型并不预测表示所有用户的注意力的单个显著性热力图,而是预测每个用户的注意力图以编码个体的注意力模式。

此外,该模型采用用户掩码(大小等于参与者数量的二进制向量)来指示当前样本中参与者的存在,使得模型可以选择一组参与者,并将偏好组合成单个热力图。

真·抓住用户「眼球」:无需专用硬件,谷歌教你用「注意力」提升产品体验|CVPR 2023预测注意力与GT值,EML-Net是最先进模型的预测,对于两个参与者/组具有相同的预测;我们提出的用户感知显著性模型的预测,可以正确预测每个参与者/组的独特偏好。第一个图像来自OSIE图像集,第二个图像来自FiWI。

以显著特征为中心的渐进式图像解码除了图像编辑,人类注意力模型也可以改善用户的浏览体验。

在上网时,最让人感到不舒服的用户体验之一就是等待加载带有图像的网页,特别是在网速很慢的情况下,一种改善用户体验的方式是图像的渐进式解码,可以随着数据逐渐下载再解码,并显示越来越高分辨率的图像,直到全分辨率图像准备就绪。

渐进式解码通常按顺序进行(例如,从左到右、从上到下),使用预测注意力模型,就可以基于显著性对图像进行解码,从而可以首先发送显示最显著区域的细节所需的数据。

例如,在肖像中,用于面部的字节可以优先于用于失焦背景的字节,因此用户更早地感知到更好的图像质量,并体验到显著减少的等待时间。

基于这个想法,预测注意力模型可以帮助图像压缩和更快地加载具有图像的网页,改善大型图像和流媒体/VR应用的渲染。

结论上面两篇论文展示了人类注意力的预测模型如何通过具体的应用场景实现令人愉快的用户体验,例如图像编辑操作,可以减少用户图像或照片中的混乱、分心或伪影,以及渐进式图像解码,可以大大减少用户在图像完全渲染时的感知等待时间。

文中提出的用户感知显著性模型可以进一步为个人用户或群体个性化上述应用程序,从而实现更丰富、更独特的体验。

参考资料:

https://www.php.cn/link/0e99eacf79d6fee9b99f889e6da46c0a

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2918

2024.08.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

25

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

44

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

50

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

92

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

530

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
实现全屏切换效果实战视频教程
实现全屏切换效果实战视频教程

共7课时 | 1.6万人学习

oracle基础视频教程
oracle基础视频教程

共31课时 | 6.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号