0

0

信通院发布“方升”3.0 体系及大模型基准测试结果

花韻仙語

花韻仙語

发布时间:2025-10-09 18:07:00

|

625人浏览过

|

来源于php中文网

原创

中国信通院于日前正式发布新版本“方升”基准测试体系3.0。

“方升”大模型基准测试体系3.0在原有基础上实现系统性跃升,新增模型基础属性测试,对参数规模、推理效率等底层特征进行体系化测试;同时前瞻性布局未来高级智能测试,围绕全模态理解、长期记忆、自主学习等10项高级能力构建评估能力,并进一步深化工业制造、基础科学、金融等重点行业的场景化评测。

为支撑“方升”3.0的实施,中国信通院将从以下几方面系统强化评测基础设施:

  • 一是扩容高质测试数据资源,围绕复杂推理、多模态、代码及智能体应用等重点领域和重点行业方向,未来将新增300万条高质量数据,满足多语言、多任务、多场景下的模型评测与优化需求。
  • 二是体系化研究和应用先进测试方法,聚焦大模型评测流程中的关键技术卡点,未来将突破高质量测试数据合成与质量评估、数据污染检测及人机对齐裁判模型构建等核心技术;同时围绕通用人工智能演进趋势,将率先构建高级智能能力的评测范式,实现对未来智能水平的前瞻性度量与引导。
  • 三是构建新一代智能评测基座,围绕智能体应用场景,未来将新增多智能体交互与环境感知的仿真测试环境,满足复杂真实场景下智能体协同交互、动态环境适应能力的系统性测试与评估需求;同时构建一体化基准评测系统,集成动态自适应测试工具、高级智能能力评估工具及评测数据全生命周期管理工具,实现评测能力的自动化、可扩展与前瞻性统一。

信通院发布“方升”3.0 体系及大模型基准测试结果

2024年起,中国信通院以两个月为周期开展大模型基准测试活动,目前已累计完成9轮评测。在最新一轮测试中,共对141个大模型和7个智能体进行了系统评估,覆盖大语言模型的基础、推理、代码能力,多模态模型的理解、生成能力以及智能体的通用能力。同时评测均采用多维度复合评估体系,涵盖69个细分测试维度,确保评估结果的全面性与科学性。

立即进入豆包AI人工智官网入口”;

立即学习豆包AI人工智能在线问答入口”;

1.大语言模型测试结果:

基础能力持续提升,在学科、数学、指令遵循等方面表现出色,但在幻觉、工具使用等方面仍有提升空间。OpenAI的GPT 5(8月7日发布)综合能力领先排名第一,效果优于国内阿里巴巴的Qwen3-Max-Preview、月之暗面的Kimi K2,国内外大语言模型在基础能力上差距较小。推理能力进展显著,在高阶数学、复杂学科任务场景提升明显,但在复杂中文推理场景有待加强。OpenAI的GPT 5在复杂数学、推理能力领先,排名推理榜单首位,xAI的Grok-4紧随其后;国内表现较好的推理模型是深度求索的DeepSeek-V3.1、阿里巴巴的Qwen3-235B-A22B-Thinking-2507以及百度的ERNIE-X1-Turbo-Latest,但相较国际领先水平仍存在一定差距,这标志着全球大语言模型在推理能力的竞争已进入白热化阶段(如图3所示,此处仅展示排名前15的大模型)。

信通院发布“方升”3.0 体系及大模型基准测试结果

Tome
Tome

先进的AI智能PPT制作工具

下载

2.多模态大模型测试结果

图像理解方面能力持续突破,在场景解析和颜色识别等基础任务表现突出,但在需要多步推导的复杂逻辑推理任务上性能有待加强。OpenAI的GPT-5整体表现仍居领先地位。国内模型中,腾讯混元与字节跳动豆包在细粒度对象识别与情绪感知任务中表现优异,而在复杂空间关系与因果推理的高阶认知任务中仍有提升空间。图像生成方面技术实现显著进步,生成结果在视觉真实感、细粒度细节及复杂指令跟随方面取得系统性进展。然而,在生成内容的逻辑一致性、交互自然度以及文化表达方面仍面临持续性的挑战。谷歌的Nano Banana(gemini-2.5-flash-image)小幅领先,国内字节跳动的Seedream 4.0、腾讯的HunyuanImage 2.1、阿里巴巴的Qwen-image位居前列,头部大模型竞争白热化。视频生成方面,在时序一致性建模和动态场景合成等方面取得进步,但物理合理性与情感表现力等维度仍是持续探索的重点。稀宇科技的Hailuo02、谷歌的Veo3、生数的Vidu Q2内测版排名靠前。总体来看,国内多家企业跻身前列,技术加速跃迁,头部格局初显。

信通院发布“方升”3.0 体系及大模型基准测试结果

3.代码应用能力测试结果

大模型代码应用能力在函数级这类单一问题方面,表现较为出色,但在真实项目级开发这类复杂任务中,仍存在明显短板。OpenAI的GPT-5在代码应用能力排名首位,月之暗面的Kimi-K2-0905版本排名国内第一,国内模型在游戏开发、应用开发等项目级任务中,其在功能实现完整度与效果呈现方面,仍与国际先进水平存在一定差距。在大模型代码能力方面,推理模型能力较基础模型更具备优势,本轮测试的Top 5中,有4个为推理模型,仅有1个为基础模型。不同模型间代码理解能力整体差异不大,代码生成能力差异较为显著,大模型的代码注释、代码解释、代码生成能力依次减弱。

信通院发布“方升”3.0 体系及大模型基准测试结果

4.智能体应用能力测试结果:

智能体应用能力相比大模型可以完成更复杂任务,但在细分任务上仍不及预期。综合表现方面,高度封装的智能体产品通过融合基座模型、MCP服务、智能体沙箱等,可以获得比GPT-5、o3等单一大模型更好的性能表现。细分场景表现方面,智能体仍处于起始发展阶段,自主性不断增强,但能力仍有一定提升空间。智能体在网页交互和复杂信息挖掘等任务上表现相对较好,主要得益于当前网页浏览工具较为成熟、基座模型推理能力不断提升。然而,在多模态理解任务方面,智能体普遍表现欠佳,暴露出其在视频内容解析、图表语义理解等关键环节的技术短板,同时存在工具调用策略不合理、信息源整合能力不足等问题。

信通院发布“方升”3.0 体系及大模型基准测试结果

下一步,中国信息通信研究院将持续加强大模型评测技术研发与推广,提升大模型评测公信力和权威性,支撑人工智能前沿创新与新型工业化发展。一是聚焦技术突破,夯实评测底层能力。攻关自动化测试、缺陷分析及未来高级智能评测技术,推动评测向“智能驱动”跃升。二是强化能力建设,拓展多模态多场景覆盖。拓展文本、图像、语音、视频等多模态和多应用场景,打造一体化自动测试平台,实现全能力覆盖。三是深化生态运营,构建闭环服务体系。提供测试分析、选型评估、闭环优化等专业服务,推进国际合作与公益测试,构建开放协同、可持续的大模型评测生态。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

443

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

605

2023.08.10

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

67

2025.12.13

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

71

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

38

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

82

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

97

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
光速学会docker容器
光速学会docker容器

共33课时 | 2万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号