当GPT-4学会看图文，一场生产力革命已势不可挡

青灯夜游

发布时间：2023-03-31 22:38:41

1922人浏览过

来源于51cto

转载

来自学界和业界的多位研究者围绕「图文智能处理技术与多场景应用技术」展开了深入探讨，

「太卷了！」

在经历了 GPT-4 和微软 Microsoft 365 Copilot 的连续轰炸后，相信很多人都有这样的感想。

与 GPT-3.5 相比，GPT-4 在很多方面都实现了大幅提升，比如在模拟律师考试中，它从原来的倒数 10% 进化到了正数 10%。当然，普通人对于这些专业考试可能没什么概念。但如果给你看一张图，你就明白它的提升有多么恐怖了：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图源：清华大学计算机系教授唐杰微博。链接：https://m.weibo.cn/detail/4880331053992765

这是一道物理题，GPT-4 被要求根据图文逐步解题，这是 GPT-3.5（此处指升级之前的 ChatGPT 所依赖的模型）所不具备的能力。一方面，GPT-3.5 只被训练用来理解文字，题中的图它是看不懂的。另一方面，GPT-3.5 的解题能力也很薄弱，鸡兔同笼都能把它难倒。但这一次，两个问题似乎都被解决得非常漂亮。

当所有人都以为这就是王炸的时候，微软又放出了一个重磅炸弹：GPT-4 这些能力已经被整合到一个名为 Microsoft 365 Copilot 的新应用中。凭借强大的图文处理能力，Microsoft 365 Copilot 不仅可以帮你写各种文档，还能轻松地将文档转换成 PPT、将 Excel 数据自动总结成图表……

从技术亮相到产品落地，OpenAI 和微软只给了大众两天的反应时间。似乎在一夜之间，一场新的生产力革命已经到来。

由于变革来得太快，学界和业界都或多或少地处于一种迷茫和「FOMO（fear of missing out，怕错过）」的状态。当前，所有人都想知道一个答案：在这场浪潮中，我们能做些什么？有哪些机会可以抓住？而从微软发布的 demo 中，我们可以找到一个清晰的突破口：图文智能处理。

在现实场景中，各行各业的很多工作都和图文处理有关系，比如把非结构化数据整理成图表、根据图表写报告、从海量的图文信息中抽取出有用信息等等。也正因如此，这场革命的影响可能远比很多人想象得还要深远。OpenAI 和沃顿商学院最近发布的一篇重磅论文对这种影响做了预测：约 80% 的美国劳动力至少有 10% 的工作任务可能会受到 GPT 引入的影响，而约 19% 的工人可能会看到至少 50% 的任务受到影响。可以预见，这里面很大一部分工作是涉及图文智能的。

在这样一个切入点上，哪些研究工作或工程努力是值得探索的呢？在近期中国图象图形学学会（CSIG）主办，合合信息、CSIG 文档图像分析与识别专业委员会联合承办的 CSIG 企业行活动中，来自学界和业界的多位研究者围绕「 图文智能处理技术与多场景应用技术」展开了深入探讨，或许能给关注图文智能处理领域的研究者、从业者提供一些启发。

处理图文，从做好底层视觉开始

前面提到，GPT-4 的图文处理能力是非常令人震撼的。除了上面那个物理题，OpenAI 的技术报告里还举了其他例子，比如让 GPT-4 读论文图：

不过，要想让这样的技术广泛落地，可能还有很多基础工作要做，底层视觉便是其中之一。

底层视觉的特征非常明显：输入是图像，输出也是图像。图像预处理、滤波、恢复和增强等都属于这一范畴。

「底层视觉的理论和方法在众多领域都有着广泛的应用，如手机、医疗图像分析、安防监控等。重视图像、视频内容质量的企业、机构不能不关注底层视觉方向的研究。如果底层视觉没做好，很多 high-level 视觉系统（如检测、识别、理解）无法真正落地。」合合信息图像算法研发总监郭丰俊在 CSIG 企业行活动分享中表示。

这句话要怎么理解？我们可以看一些例子：

和 OpenAI、微软 demo 中所展示的理想情况不同，现实世界的图文总是以充满挑战的形式存在，比如存在形变、阴影、摩尔纹，这会加大后续识别、理解等工作的难度。郭丰俊团队的目标就是在初始阶段把这些问题解决好。

为此，他们将这项任务分成了几个模块，包括感兴趣区域（RoI）的提取、形变矫正、图像恢复（如去除阴影、摩尔纹）、质量增强（如增强锐化、清晰度）等。

这些技术组合起来可以打造一些非常有意思的应用。经过多年的摸索，这些模块已经实现了相当不错的效果，相关技术已被应用于公司旗下的智能文字识别产品「扫描全能王」里。

闪念贝壳

闪念贝壳是一款AI 驱动的智能语音笔记，随时随地用语音记录你的每一个想法。

下载

从字到表，再到篇章，一步步读懂图文

图像处理好之后，接下来的工作就是识别上面的图文内容。这也是一个非常细致的工作，甚至可能以「字」为单位。

在很多现实场景中，字不一定会以规范的印刷体的形式出现，这就给字的识别带来了挑战。

以教育场景为例。假设你是一位老师，你肯定想让 AI 直接帮你把学生作业全部批改好，同时把学生对各部分知识的掌握情况汇总一下，最好还能把错题、错别字及改正建议给出来。中国科学技术大学语音及语言信息处理国家工程实验室副教授杜俊就在做这方面的工作。

具体来说，他们创建了一套基于部首的汉字识别、生成与评测系统，因为与整字建模相比，部首的组合要少得多。其中，识别与生成是联合优化的，这有点像学生学习时识字与写字互相强化的过程。评测的工作以往大多聚焦在语法层面，而杜俊的团队设计了一种可以直接从图像中找出错别字并详细说明错误之处的方法。这种方法在智能阅卷等场景中将非常有用。

文字之外，表格的识别与处理其实也是一大难点，因为你不仅要识别里面的内容，还要理清这些内容之间的结构关系，而且有些表可能连线框都没有。为此，杜俊团队设计了一种「先分割，后合并」的方法，即先把表格图像拆分成一系列基础网格，然后再通过合并的方式做进一步纠正。

杜俊团队「先分割，后合并」的表格识别方法。

当然，所有这些工作最后都会在篇章级别的文档结构化和理解方面发挥作用。在现实环境中，模型所面临的文档大多不止一页（比如一篇论文）。在这一方向，杜俊团队的工作聚焦于跨页文档要素分类、跨页文档结构恢复等。不过，这些方法在多版式的场景下还存在局限性。

大模型、多模态、世界模型…… 未来路在何方？

聊到篇章级别的图文处理与理解，其实我们离 GPT-4 就不远了。「多模态的 GPT-4 出来后，我们也在想能不能在这些方面做些事情」，杜俊在活动现场说到。相信很多图文处理领域的研究者或从业者都有此想法。

一直以来，GPT 系列模型的目标都是努力提高通用性，最终实现通用人工智能（AGI）。此次 GPT-4 所展现出的强大的图文理解能力是这种通用能力的重要组成部分。要想做出一个拥有类似能力的模型，OpenAI 给出了一些借鉴，也留下了不少谜团和未解决的问题。

首先，GPT-4 的成功表明，大模型 + 多模态的做法是可行的。但大模型要研究哪些问题，多模态的夸张算力需求如何解决都是摆在研究者眼前的挑战。

对于第一个问题，复旦大学计算机学院教授邱锡鹏给出了一些值得参考的方向。根据 OpenAI 之前透露的一些信息，我们知道 ChatGPT 离不开几项关键技术，包括情景学习（in-context learning）、思维链（chain of thought）和指令学习（learn from instructions）等。邱锡鹏在分享中指出，这几个方向都还有很多待探讨的问题，比如这些能力从哪里来、如何继续提高、如何利用它们去改造已有的学习范式等。此外，他还分享了对话式大型语言模型构建时应该考虑的能力以及将这些模型与现实世界对齐可以考虑的研究方向。

对于第二个问题，厦门大学南强特聘教授纪荣嵘贡献了一个重要思路。他认为，语言和视觉存在着天然的联系，二者的联合学习已经是大势所趋。但面对这波浪潮，任何一个高校或实验室的力量都显得微不足道。所以他现在从自己就职的厦大开始，尝试说服研究人员将算力整合起来，形成一个网络去做多模态大模型。其实，在前段时间的一个活动上，专注于 AI for Science 的鄂维南院士也发表了类似看法，希望各界「敢于在原始创新方向上集中资源」。

不过，GPT-4 所走的路就一定会通向通用人工智能吗？对此，有些研究者是存疑的，图灵奖得主 Yann LeCun 便是其中之一。他认为，当前的这些大模型对于数据、算力的需求大得惊人，但学习效率却很低（比如自动驾驶汽车）。因此，他创立了一套名为「世界模型」（即世界如何运作的内部模型）的理论，认为学习世界模型（可以理解为为真实世界跑个模拟）可能是实现 AGI 的关键。在活动现场，上海交通大学教授杨小康分享了他们在这个方向上的工作。具体来说，他的团队着眼于视觉直觉的世界模型（因为视觉直觉信息量大），试图把视觉、直觉以及对时间、空间的感知建模好。最后，他还强调了数学、物理、信息认知与计算机学科交叉对这类研究的重要性。

「毛毛虫从食物中提取营养，然后变成蝴蝶。人们已经提取了数十亿条理解的线索，GPT-4 是人类的蝴蝶。」在 GPT-4 发布的第二天，深度学习之父 Geoffrey Hinton 发了这样一条推文。

目前，还没有人能够断定这只蝴蝶将掀起多大的飓风。但可以肯定的是，这还不是一只完美的蝴蝶，整个 AGI 世界的拼图也尚未完成。每位研究者、从业者都还有机会。

RunwayAI视频怎么生成_Runway视频创作入门方法【教程】

Pika视频生成太慢怎么办_Pika速度优化解决方法【解答】

WorkBuddy如何批量生成不同尺寸的自媒体封面_WorkBuddy图像处理自动化指南【实战】

LumaAI视频生成怎么开始_LumaAI视频创作基础方法【教程】

LumaAI如何生成动态场景_LumaAI动画场景制作流程【指南】

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04