讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI聊天问答 Agent智能体 AI文本写作 AI绘画作图 AI设计工具 AI视频创作 AI音频制作 AI办公学习 AI编程开发 AI提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

PHPz

发布时间：2024-03-15 12:07:23

|

673人浏览过

|

来源于机器之心

转载

合成数据持续解锁大模型的数学推理潜力！

数学问题解决能力一直被视为衡量语言模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学问题上表现出色。

近日，一项由 Swin-Transformer 团队打造，来自西安交通大学、中国科学技术大学、清华大学和微软亚洲研究院的学者共同完成的研究工作 Xwin 颠覆了这一认知，揭示了通用预训练下 7B（即 70 亿参数）规模的语言模型（LLaMA-2-7B）在数学问题解决方面已经展现出较强的潜力，并可使用基于合成数据的有监督微调方法促使模型愈发稳定地将数学能力激发出来。

这项研究发布在 arXiv 上，题为《Common 7B Language Models Already Possess Strong Math Capabilities》。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

llama-2-7b数学能力上限已达97.7%？xwin-math利用合成数据解锁潜力

论文链接：https://arxiv.org/pdf/2403.04706.pdf
代码链接：https://github.com/Xwin-LM/Xwin-LM

研究团队首先仅使用 7.5K 数据，对 LLaMA-2-7B 模型指令微调，进而测评模型在 GSM8K 和 MATH 的表现。实验结果表明，当对每一个测试集中的问题从 256 个生成的答案中选择最佳答案时，测试准确率可分别高达 97.7% 和 72.0%，这一结果说明即使是通用预训练下 7B 量级的小模型，也具备生成优质回答的巨大潜力，这一发现挑战了以往的观点，即强大的数学推理潜力并非仅限于大规模和数学相关预训练模型。

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

然而研究也指出，尽管已具备强大的数学推理潜力，但当前语言模型的主要问题是难以一致地激发其内在的数学能力。例如，在前面的实验中如果只考虑每个问题的一次生成的答案，那么在 GSM8K 和 MATH 基准测试上的准确率会分别降至 49.5% 和 7.9%。这体现出模型数学能力的不稳定性问题。为了解决这一问题，研究团队采用了扩大有监督微调（SFT）数据集的方法，并发现随着 SFT 数据的增多，模型生成正确答案的可靠性被显著提升。

研究中还提到，通过使用合成数据，可以有效地扩大 SFT 数据集，而且这种方法几乎与真实数据一样有效。研究团队利用 GPT-4 Turbo API 生成了合成的数学问题与解题过程，并通过简单的验证提示词来确保问题的质量。通过这种方法，团队成功地将 SFT 数据集从 7.5K 扩展到约一百万样本，实现了近乎完美的缩放定律（Scaling Law）。最终获得的 Xwin-Math-7B 模型在 GSM8K 和 MATH 上分别达到了 82.6% 和 40.6% 的准确率，大幅超越此前的 SOTA 模型，甚至可超越一些 70B 量级模型，实现越级提升。而 Xwin-Math-70B 模型在 MATH 评测集上的结果可达 52.8%，显著超越了 GPT-4 的早期版本。这是基于 LLaMA 系列基础模型的研究第一次在 MATH 上超越 GPT-4。

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

研究人员还定义了 Pass@N 和 PassRatio@N 评测指标，意图分别测评模型的 N 次输出中，是否能够输出正确答案（表示模型潜在的数学能力），以及正确答案的所占比例（表示模型数学能力的稳定性）。当 SFT 数据量较小时，模型的 Pass@256 已经很高，进一步扩大 SFT 数据规模后，模型的 Pass@256 提升极小，而 PassRatio@256 则获得显著增长。这表明基于合成数据的有监督微调是提升模型数学能力稳定性的有效方式。

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

此外，研究还提供了对不同推理复杂性和错误类型下扩展行为的洞察。例如，随着 SFT 数据集规模的增加，模型在解决数学问题时的准确率遵循与推理步骤数量相关的幂律关系。通过增加训练样本中长推理步骤的比例，可以显著提高模型解决难题的准确率。同时，研究还发现，计算错误比推理错误更容易被缓解。

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

人民网AIGC-X

人民网AIGC-X

国内科研机构联合推出的AI生成内容检测工具

下载

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

在表现模型数学推理泛化能力的匈牙利高中数学考试中，Xwin-Math 也拿到了 65% 的分数，仅次于 GPT-4。这表明研究中合成数据的方式并没有显著地过拟合到评测集中，展现出良好的泛化能力。

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

这项研究不仅展示了合成数据在扩展 SFT 数据方面的有效性，而且为大型语言模型在数学推理能力方面的研究提供了新的视角。研究团队表示，他们的工作为未来在这一领域的探索和进步奠定了基础，并期待能够推动人工智能在数学问题解决方面取得更大的突破。随着人工智能技术的不断进步，我们有理由期待 AI 在数学领域的表现将更加出色，为人类解决复杂数学问题提供更多帮助。

文章还涉及数据合成方法的消融实验和其他评测指标的结果，详细内容请参阅全文。

相关文章

如何零基础学会利用AI进行内容创作利用DeepSeek制定全套学习成长计划

Symphony— OpenAI 开源的 Agent 编排系统

如何解决代码中难以排查的性能瓶颈利用ChatGPT提供针对性优化建议

如何零基础入门AI提示词工程利用DeepSeek官方教程实现技能进阶

如何掌握提示词工程技巧利用ChatGPT万能公式提升回复质量

相关标签:

math 并发 github transformer https gpt llama

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：专为训练Llama 3，Meta 4.9万张H100集群细节公布下一篇：首次攻克「图基础模型」三大难题！港大开源OpenGraph：零样本学习适配多种下游任

作者最新文章

如何高效生成订单/发票号？SprykerSequenceNumber模块助你轻松搞定

2025-09-16 10:01

如何解决电商平台商品属性管理混乱的问题，使用SprykerProductAttribute模块助你实现灵活高效的数据管理

2025-09-16 12:23

解锁夸克浏览器AI搜索新功能_掌握夸克AI搜索的进阶玩法

2025-10-13 17:08

升级夸克浏览器体验AI搜索_夸克AI搜索核心功能深度解析

2025-10-28 20:58

微信朋友圈能不能定时发微信朋友圈定时发送辅助工具使用

2026-01-11 08:41

企业微信朋友圈怎么定时发送企业微信定时发布朋友圈教程

2026-01-19 01:11

微信朋友圈怎么预约发送微信朋友圈定时发布最新解决方案

2026-02-09 10:52

mysql如何进行逻辑运算_mysql and/or/not组合

2026-03-06 10:26

mysql如何使用位运算符_mysql二进制数据处理

2026-03-07 02:17

微信怎么隐藏好友如何单独隐藏一个人不删除不拉黑

2026-03-10 10:02

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

更多

github中文官网入口 github中文版官网网页进入

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4212

2026.01.21

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2910

2024.08.16

C# ASP.NET Core微服务架构与API网关实践

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

76

2026.03.11

Go高并发任务调度与Goroutine池化实践

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

38

2026.03.10

Kotlin Android模块化架构与组件化开发实践

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

83

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

97

2026.03.06

Rust内存安全机制与所有权模型深度实践

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

AI安装教程大全

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

169

2026.03.04

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

国外Web开发全栈课程全集

国外Web开发全栈课程全集

共12课时 | 1万人学习

进程与SOCKET

进程与SOCKET

共6课时 | 0.4万人学习

Linux运维网站架构，知识点全面总结

Linux运维网站架构，知识点全面总结

共16课时 | 1.1万人学习

最新文章

更多

OpenClaw安装权限不足解决_OpenClaw安装权限问题【解答】

StableDiffusion生成图片模糊怎么办_StableDiffusion清晰度提升方法【技巧】

QClaw怎么让AI帮我预订会议室_QClaw日历集成与日程管理【教程】

Workbuddy技能包安装后如何启用_Workbuddy技能启用步骤说明【操作】

LumaAI生成视频模糊怎么办_LumaAI清晰度优化技巧【解答】

Synthesia如何修改视频内容_Synthesia视频编辑技巧【技巧】

PerplexityAI如何优化文章逻辑_PerplexityAI结构调整方法【说明】

OpenClaw和类似工具区别_OpenClaw功能对比方法【方法】

Workbuddy技能包无法更新怎么办_Workbuddy更新失败解决办法【解答】

文心一言聊天记录如何快速查找_文心一言历史记录查看方法【操作】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部