0

0

别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻

WBOY

WBOY

发布时间:2023-11-09 11:13:08

|

1328人浏览过

|

来源于51CTO.COM

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻

“别让大模型被基准评估给坑了”。

这是一项最新研究的题目,来自人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校。

别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻

研究发现,基准测试中相关数据意外被用于模型训练的现象,变得越来越常见了。

因为预训练语料中包含很多公开文本资料,而评估基准也建立在这些信息之上,本来这种情况就在所难免。

现在随着大模型试图搜集更多公开数据,问题正在加重。

要知道,这种数据重叠带来的危害非常大。

不仅会导致模型部分测试分数虚高,还会使模型泛化能力下降、不相关任务表现骤降。甚至可能让大模型在实际应用中产生“危害”。

别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻

所以这项研究正式发出警告,并通过多项模拟测试验证了可能诱发的实际危害,具体来看。

大模型“被漏题”很危险

研究主要通过模拟极端泄露数据的情况,来测试观察大模型会产生的影响。

极端泄露数据的方式有四种:

  • 使用MMLU的训练集
  • 使用MMLU以外所有测试基准的训练集
  • 使用所有训练集+测试prompt
  • 使用所有训练集、测试集和测试prompt(这是最极端情况,仅为实验模拟,正常情况下不会发生)

然后研究人员给4个大模型进行“投毒”,然后再观察它们在不同benchmark中的表现,主要评估了在问答、推理、阅读理解等任务中的表现。

使用的模型分别是:

  • GPT-Neo(1.3B)
  • phi-1.5(1.3B)
  • OpenLLaMA(3B)
  • LLaMA-2(7B)

同时使用LLaMA(13B/30B/65B)作为对照组。

结果发现,当大模型的预训练数据中包含了某一个评测基准的数据,它会在这一评测基准中表现更好,但在其他不相关任务中的表现会下降。

比如使用MMLU数据集训练后,多个大模型在MMLU测试中分数提高的同时,在常识基准HSwag、数学基准GSM8K中分数下降。

这表明大模型的泛化能力受到影响。

别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻

另一方面,还可能造成不相关测试分数虚高。

如上给大模型进行“投毒”的四个训练集中仅包含少量中文数据,但是大模型被“投毒”后,在C3(中文基准测试)中的分数却都变高了。

这种升高是不合理的。

别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻

这种训练数据泄露的情况,甚至会导致模型测试分数,异常超越更大模型的表现。

比如phi-1.5(1.3B)在RACE-M和RACE-H上的表现优于LLaMA65B,后者是前者规模的50倍。

LOGO.com
LOGO.com

在线生成Logo,100%免费

下载

但这种分数升高没有意义,只是作弊罢了。

别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻

更严重的是,哪怕是没有被泄露数据的任务,也会受到影响,表现下降。

下表中可以看到,在代码任务HEval中,两个大模型都出现了分数大幅下降的情况。

别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻

同时被泄露数据后,大模型的微调提升远不如未被泄露情况。

别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻

对于发生数据重叠/泄露的情况,本项研究分析了各种可能。

比如大模型预训练语料和基准测试数据都会选用公开文本(网页、论文等),所以发生重叠在所难免。

而且当前大模型评估都是在本地进行,或者是通过API调用来获得结果。这种方式无法严格检查一些不正常的数值提升。

以及当下大模型的预训练语料都被各方视为核心机密,外界无法评估。

所以导致了大模型被意外“投毒”的情况发生。

那该如何规避这一问题呢?研究团队也出了一些建议。

如何规避?

研究团队给出了三点建议:

第一,实际情况中很难完全避免数据重叠,所以大模型应该采用多个基准测试进行更全面的评估。

第二,对于大模型开发者,应该要对数据进行脱敏,公开训练语料的详细构成。

第三,对于基准测试维护人员,应该提供基准测试数据来源,分析数据被污染的风险,使用更多样化的提示进行多次评估。

不过团队也表示本次研究中还存在一定局限。比如没有对不同程度数据泄露进行系统性测试,以及没能在预训练中直接引入数据泄露进行模拟等。

本次研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学香槟分校的多位学者共同带来。

在研究团队中我们发现了两位数据挖掘领域大佬:文继荣和韩家炜。

文继荣教授现任中国人民大学高瓴人工智能学院院长、中国人民大学信息学院院长。主要研究方向为信息检索、数据挖掘、机器学习、大规模神经网络模型的训练与应用。

韩家炜教授领衔是数据挖掘领域专家,现为伊利诺伊大学香槟分校计算机系教授,美国计算机协会院士和IEEE院士。

论文地址:https://arxiv.org/abs/2311.01964。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2571

2024.08.16

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

561

2026.02.13

微博网页版主页入口与登录指南_官方网页端快速访问方法
微博网页版主页入口与登录指南_官方网页端快速访问方法

本专题系统整理微博网页版官方入口及网页端登录方式,涵盖首页直达地址、账号登录流程与常见访问问题说明,帮助用户快速找到微博官网主页,实现便捷、安全的网页端登录与内容浏览体验。

165

2026.02.13

Flutter跨平台开发与状态管理实战
Flutter跨平台开发与状态管理实战

本专题围绕Flutter框架展开,系统讲解跨平台UI构建原理与状态管理方案。内容涵盖Widget生命周期、路由管理、Provider与Bloc状态管理模式、网络请求封装及性能优化技巧。通过实战项目演示,帮助开发者构建流畅、可维护的跨平台移动应用。

90

2026.02.13

TypeScript工程化开发与Vite构建优化实践
TypeScript工程化开发与Vite构建优化实践

本专题面向前端开发者,深入讲解 TypeScript 类型系统与大型项目结构设计方法,并结合 Vite 构建工具优化前端工程化流程。内容包括模块化设计、类型声明管理、代码分割、热更新原理以及构建性能调优。通过完整项目示例,帮助开发者提升代码可维护性与开发效率。

20

2026.02.13

Redis高可用架构与分布式缓存实战
Redis高可用架构与分布式缓存实战

本专题围绕 Redis 在高并发系统中的应用展开,系统讲解主从复制、哨兵机制、Cluster 集群模式及数据分片原理。内容涵盖缓存穿透与雪崩解决方案、分布式锁实现、热点数据优化及持久化策略。通过真实业务场景演示,帮助开发者构建高可用、可扩展的分布式缓存系统。

31

2026.02.13

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

29

2026.02.12

雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法
雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法

本专题系统整理雨课堂网页版官方入口及在线登录方式,涵盖账号登录流程、官方直连入口及平台访问方法说明,帮助师生用户快速进入雨课堂在线教学平台,实现便捷、高效的课程学习与教学管理体验。

15

2026.02.12

豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法
豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法

本专题汇总豆包AI官方网页版入口及在线使用方式,涵盖智能写作工具、图片生成体验入口和官网登录方法,帮助用户快速直达豆包AI平台,高效完成文本创作与AI生图任务,实现便捷智能创作体验。

579

2026.02.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.3万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号