0

0

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

王林

王林

发布时间:2024-03-04 09:31:43

|

1069人浏览过

|

来源于51CTO.COM

转载

在目前的模型训练范式中,偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中,偏好数据通常被用作对齐(alignment)时的训练优化目标,如基于人类或 AI 反馈的强化学习(RLHF/RLAIF)或者直接偏好优化(DPO),而在模型评估中,由于任务的复杂性且通常没有标准答案,则通常直接以人类标注者或高性能大模型(LLM-as-a-Judge)的偏好标注作为评判标准。

尽管上述对偏好数据的应用已经取得了广泛的成效,但对偏好本身则缺乏充足的研究,这很大程度上阻碍了对更可信 AI 系统的构建。为此,上海交通大学生成式人工智能实验室(GAIR)发布了一项新研究成果,对人类用户与多达 32 种流行的大语言模型所展现出的偏好进行了系统性的全面解析,以了解不同来源的偏好数据是如何由各种预定义属性(如无害,幽默,承认局限性等)定量组成的。

进行的分析有如下特点:

  • 注重真实应用:研究中采用的数据均来源于真实的用户 - 模型对话,更能反映实际应用中的偏好。
  • 分场景建模:对属于不同场景下的数据(如日常交流,创意写作)独立进行建模分析,避免了不同场景之间的互相影响,结论更清晰可靠。
  • 统一框架:采用了一个统一的框架解析人类与大模型的偏好,并且具有良好的可扩展性。

该研究发现:

  • 人类用户对模型回复中错误之处的敏感度较低,对承认自身局限导致拒绝回答的情况有明显的厌恶,且偏好那些支持他们主观立场的回复。而像 GPT-4-Turbo 这样的高级大模型则更偏好于那些没有错误,表达清晰且安全无害的回复。
  • 尺寸接近的大模型会展现出相似的偏好,而大模型对齐微调前后几乎不会改变其偏好组成,仅仅会改变其表达偏好的强度。
  • 基于偏好的评估可以被有意地操纵。鼓励待测模型以评估者喜欢的属性进行回复可以提高得分,而注入最不受欢迎的属性则会降低得分。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

在“日常交流”场景下,根据偏好解析结果,图1显示了人类、gpt-4-turbo和llama-2-70b-chat对不同属性的喜好程度。数值越大表示更偏好该属性,小于50则表示对该属性不感兴趣。

68爱写
68爱写

专业高质量AI4.0论文写作平台,免费生成大纲,支持无线改稿

下载

本项目已经开源了丰富的内容与资源:

  • 可交互式演示:包含了所有分析的可视化及更多论文中未详尽展示的细致结果,同时也支持上传新的模型偏好以进行定量分析。
  • 数据集:包含了本研究中所收集的用户 - 模型成对对话数据,包括来自真实用户以及多达 32 个大模型的偏好标签,以及针对所定义属性的详细标注。
  • 代码:提供了收集数据所采用的自动标注框架及其使用说明,此外也包括了用于可视化分析结果的代码。

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

  • 论文:https://arxiv.org/abs/2402.11296
  • 演示:https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization
  • 代码:https://github.com/GAIR-NLP/Preference-Dissection
  • 数据集:https://huggingface.co/datasets/GAIR/preference-dissection
方法介绍

研究中使用了 ChatbotArena Conversations 数据集中的成对用户 - 模型对话数据,这些数据来自真实应用场景。每个样本包含一个用户提问和两个不同模型的回复。研究人员首先收集了人类用户对这些样本的偏好标签,这些标签已经包含在原始数据集中。此外,研究人员还额外推理和收集了来自32个不同开源或闭源大模型的标签。

该研究首先构建了一套基于 GPT-4-Turbo 的自动标注框架,为所有的模型回复标注了它们在预先定义的 29 个属性上的得分,随后基于一对得分的比较结果可以得到样本点在每个属性上的 “比较特征”,例如回复 A 的无害性得分高于回复 B,则该属性的比较特征为 + 1,反之则为 - 1,相同时为 0。

利用所构建的比较特征与收集到的二元偏好标签,研究者们可以通过拟合贝叶斯线性回归模型的方式,以建模比较特征到偏好标签之间的映射关系,而拟合得到的模型中对应于每个属性的模型权重即可被视作该属性对于总体偏好的贡献程度。

由于该研究收集了多种不同来源的偏好标签,并进行了分场景的建模,因而在每个场景下,对于每个来源(人类或特定大模型),都能够得到一组偏好到属性的定量分解结果。

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

图 2:分析框架的总体流程示意图

分析结果

该研究首先分析比较了人类用户与以 GPT-4-Turbo 代表的高性能大模型在不同场景下最偏好与最不偏好的三个属性。可以看出,人类对错误的敏感程度显著低于 GPT-4-Turbo,且厌恶承认局限性而拒绝回答的情形。此外,人类也对迎合自己主观立场的回复表现出明显的偏好,而并不关心回复中是否纠正了问询中潜在的错误。与之相反,GPT-4-Turbo 则更注重回复的正确性,无害性与表达的清晰程度,并且致力于对问询中的模糊之处进行澄清。

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

图 3:人类与 GPT-4-Turbo 在不同场景或问询满足的前提下最偏好与最不偏好的三个属性

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

图 4:人类与 GPT-4-Turbo 对于轻微 / 适中 / 严重程度的错误的敏感程度,值接近 50 代表不敏感。

此外,该研究还探索了不同大模型之间的偏好组分的相似程度。通过将大模型划分为不同组并分别计算组内相似度与组间相似度,可以发现当按照参数量( 30B)进行划分时,组内相似度(0.83,0.88)明显高于组间相似度(0.74),而按照其他因素划分时则没有类似的现象,表明大模型的偏好很大程度上决定于其尺寸,而与训练方式无关。

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

图 5:不同大模型(包括人类)之间偏好的相似程度,按参数量排列

另一方面,该研究也发现经过对齐微调后的大模型表现出的偏好与仅经过预训练的版本几乎一致,而变化仅发生在表达偏好的强度上,即对齐后的模型输出两个回复对应候选词 A 与 B 的概率差值会显著增加。

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

图 6:大模型在对齐微调前后的偏好变化情况

最后,该研究发现,通过将人类或大模型的偏好定量分解到不同的属性,可以对基于偏好的评估结果进行有意地操纵。在目前流行的 AlpacaEval 2.0 与 MT-Bench 数据集上,通过非训练(设置系统信息)与训练(DPO)的方式注入评估者(人类或大模型)的偏好的属性均可显著提升分数,而注入不受偏好的属性则会降低得分。

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

图 7:对 MT-Bench 与 AlpacaEval 2.0 两个基于偏好评估的数据集进行有意操纵的结果

总结

本研究详细分析了人类和大模型偏好的量化分解。研究团队发现人类更倾向于直接回答问题的回应,对错误不太敏感;而高性能大模型则更重视正确性、清晰性和无害性。研究还表明,模型大小是影响偏好组分的一个关键因素,而对其微调则影响不大。此外,该研究展示了当前若干数据集在了解评估者的偏好组分后易被操纵,表明了基于偏好评估的不足。研究团队还公开了所有研究资源,以支持未来的进一步研究。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

7

2026.01.21

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

411

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

305

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

632

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

34

2025.10.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2001

2024.08.16

Java编译相关教程合集
Java编译相关教程合集

本专题整合了Java编译相关教程,阅读专题下面的文章了解更多详细内容。

11

2026.01.21

C++多线程相关合集
C++多线程相关合集

本专题整合了C++多线程相关教程,阅读专题下面的的文章了解更多详细内容。

4

2026.01.21

无人机驾驶证报考 uom民用无人机综合管理平台官网
无人机驾驶证报考 uom民用无人机综合管理平台官网

无人机驾驶证(CAAC执照)报考需年满16周岁,初中以上学历,身体健康(矫正视力1.0以上,无严重疾病),且无犯罪记录。个人需通过民航局授权的训练机构报名,经理论(法规、原理)、模拟飞行、实操(GPS/姿态模式)及地面站训练后考试合格,通常15-25天拿证。

16

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.2万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号