0

0

突破分辨率极限:字节联合中科大揭示多模态文档大模型

王林

王林

发布时间:2023-12-04 14:14:59

|

1146人浏览过

|

来源于51CTO.COM

转载

现在甚至有了大型的多模态高分辨率文档!

这项技术不仅能够准确识别图像中的信息,还能够根据用户需求调用自身的知识库来回答问题

比如,看到图中马里奥的界面,直接就回答出了这是任天堂公司的作品。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

突破分辨率极限:字节联合中科大揭示多模态文档大模型

这个模型是由字节跳动和中国科学技术大学合作研究的,于2023年11月24日上传至arXiv

在此研究中,作者团队提出DocPedia,一个统一的高分辨率多模态文档大模型DocPedia。

突破分辨率极限:字节联合中科大揭示多模态文档大模型

在此研究中,作者用一种新的方式解决了现有模型不能解析高分辨文档图像的短板。

DocPedia分辨率可达2560×2560,而目前业内先进多模态大模型如LLaVA、MiniGPT-4等处理图像分辨率上限为336×336,无法解析高分辨率的文档图像。

那么,这款模型究竟表现如何,又使用了怎样的优化方式呢?

各项测评成绩显著提升

在这篇论文中,作者展示了DocPedia高分辨图文理解的示例。可以观察到DocPedia有能力理解指令内容,并从高分辨率的文档图像和自然场景图像中准确地提取相关的图文信息

比如这组图中,DocPedia轻松从图片中挖掘出了车牌号、电脑配置等文本信息,甚至手写文字也能准确判断。

突破分辨率极限:字节联合中科大揭示多模态文档大模型

结合图像中的文本信息,DocPedia还可以利用大模型推理能力,根据上下文分析问题。

突破分辨率极限:字节联合中科大揭示多模态文档大模型

DocPedia在读取完图片信息后,还会根据其丰富的世界知识库,回答图像中未展示的扩展内容

突破分辨率极限:字节联合中科大揭示多模态文档大模型

下表定量对比了现有的一些多模态大模型和DocPedia的关键信息抽取(KIE)和视觉问答(VQA)能力。

通过提升分辨率和采用有效的训练方法,我们可以看到DocPedia在各项测试基准上都取得了显著的提升

突破分辨率极限:字节联合中科大揭示多模态文档大模型

那么,DocPedia是如何实现这样的效果的呢呢?

从频域出发解决分辨率问题

DocPedia的训练分为两个阶段:预训练和微调。为了训练DocPedia,作者团队收集了包含各类文档的大量图文数据,并构建指令微调数据集。

在预训练阶段,大型语言模型将被冻结,而只优化视觉编码器的部分,以使其输出的token表征空间与大型语言模型保持一致

在这个阶段,作者团队提出主要训练DocPedia的感知能力,包括对文字和自然场景的感知

LOGO.com
LOGO.com

在线生成Logo,100%免费

下载

预训练任务包括文字检测、文字识别、端到端OCR、段落阅读、全文阅读,以及图像文字说明。

在微调阶段,大型语言模型解除冻结,进行端到端整体优化

作者团队提出了感知-理解联合训练策略:在原有的低阶感知任务基础上,增加了文档理解和场景图像两种高阶的偏语义理解任务

这样一种感知-理解联合训练策略,进一步提高了DocPedia的性能。

突破分辨率极限:字节联合中科大揭示多模态文档大模型

在分辨率问题的策略上,与现有方法不同,DocPedia从频域的角度出发去解决。

在处理高分辨率文档图像时,DocPedia会首先提取其DCT系数矩阵。这个矩阵可以在不损失原图像的图文信息的情况下,将其空间分辨率下采样8倍

经过这一步骤后,我们会使用级联的频域适配器(Frequency Adapter)将输入信号传递给视觉编码器(Vision Encoder),以进行更深层次的分辨率压缩和特征提取

通过此方法,一张2560×2560的图像,其图文信息可以用1600个token表示。

该方法相较于直接将原始图像输入到视觉编码器(如Swin Transformer)中,token数量减少4倍。

最后,这些token与指令转换而来的token进行序列维度拼接,输入到大模型进行回答。

突破分辨率极限:字节联合中科大揭示多模态文档大模型

消融实验的结果显示,提高分辨率和进行感知-理解联合微调是提升DocPedia性能的两个重要因素

下图对比了DocPedia对于一张论文图像以及同一个指令,在不同输入尺度下的回答。可以看到,当且仅当分辨率提升至2560×2560时,DocPedia回答正确。

突破分辨率极限:字节联合中科大揭示多模态文档大模型

下图则对比了DocPedia对于同一张场景文字图像以及同一个指令,在不同微调策略下模型的回答。

通过这个例子可以看出,经过感知-理解联合微调的模型,能够准确地进行文字识别和语义问答

突破分辨率极限:字节联合中科大揭示多模态文档大模型

请点击以下链接查看论文:https://arxiv.org/abs/2311.11810

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6169

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

818

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1066

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1355

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2086

2024.08.16

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

15

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

12

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

8

2026.01.29

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

548

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 5万人学习

PostgreSQL 教程
PostgreSQL 教程

共48课时 | 8万人学习

Git 教程
Git 教程

共21课时 | 3.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号