模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

王林

发布时间：2024-03-04 09:31:43

1069人浏览过

来源于51CTO.COM

转载

在目前的模型训练范式中，偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中，偏好数据通常被用作对齐（alignment）时的训练优化目标，如基于人类或 ai 反馈的强化学习（rlhf/rlaif）或者直接偏好优化（dpo），而在模型评估中，由于任务的复杂性且通常没有标准答案，则通常直接以人类标注者或高性能大模型（llm-as-a-judge）的偏好标注作为评判标准。

尽管上述对偏好数据的应用已经取得了广泛的成效，但对偏好本身则缺乏充足的研究，这很大程度上阻碍了对更可信 AI 系统的构建。为此，上海交通大学生成式人工智能实验室（GAIR）发布了一项新研究成果，对人类用户与多达 32 种流行的大语言模型所展现出的偏好进行了系统性的全面解析，以了解不同来源的偏好数据是如何由各种预定义属性（如无害，幽默，承认局限性等）定量组成的。

进行的分析有如下特点：

注重真实应用：研究中采用的数据均来源于真实的用户 - 模型对话，更能反映实际应用中的偏好。
分场景建模：对属于不同场景下的数据（如日常交流，创意写作）独立进行建模分析，避免了不同场景之间的互相影响，结论更清晰可靠。
统一框架：采用了一个统一的框架解析人类与大模型的偏好，并且具有良好的可扩展性。

该研究发现：

人类用户对模型回复中错误之处的敏感度较低，对承认自身局限导致拒绝回答的情况有明显的厌恶，且偏好那些支持他们主观立场的回复。而像 GPT-4-Turbo 这样的高级大模型则更偏好于那些没有错误，表达清晰且安全无害的回复。
尺寸接近的大模型会展现出相似的偏好，而大模型对齐微调前后几乎不会改变其偏好组成，仅仅会改变其表达偏好的强度。
基于偏好的评估可以被有意地操纵。鼓励待测模型以评估者喜欢的属性进行回复可以提高得分，而注入最不受欢迎的属性则会降低得分。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在“日常交流”场景下，根据偏好解析结果，图1显示了人类、GPT-4-Turbo和LLaMA-2-70B-Chat对不同属性的喜好程度。数值越大表示更偏好该属性，小于50则表示对该属性不感兴趣。

人民网AIGC-X

国内科研机构联合推出的AI生成内容检测工具

下载

本项目已经开源了丰富的内容与资源：

可交互式演示：包含了所有分析的可视化及更多论文中未详尽展示的细致结果，同时也支持上传新的模型偏好以进行定量分析。
数据集：包含了本研究中所收集的用户 - 模型成对对话数据，包括来自真实用户以及多达 32 个大模型的偏好标签，以及针对所定义属性的详细标注。
代码：提供了收集数据所采用的自动标注框架及其使用说明，此外也包括了用于可视化分析结果的代码。

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

论文：https://arxiv.org/abs/2402.11296
演示：https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization
代码：https://github.com/GAIR-NLP/Preference-Dissection
数据集：https://huggingface.co/datasets/GAIR/preference-dissection

方法介绍

研究中使用了 ChatbotArena Conversations 数据集中的成对用户 - 模型对话数据，这些数据来自真实应用场景。每个样本包含一个用户提问和两个不同模型的回复。研究人员首先收集了人类用户对这些样本的偏好标签，这些标签已经包含在原始数据集中。此外，研究人员还额外推理和收集了来自32个不同开源或闭源大模型的标签。

该研究首先构建了一套基于 GPT-4-Turbo 的自动标注框架，为所有的模型回复标注了它们在预先定义的 29 个属性上的得分，随后基于一对得分的比较结果可以得到样本点在每个属性上的 “比较特征”，例如回复 A 的无害性得分高于回复 B，则该属性的比较特征为 + 1，反之则为 - 1，相同时为 0。

利用所构建的比较特征与收集到的二元偏好标签，研究者们可以通过拟合贝叶斯线性回归模型的方式，以建模比较特征到偏好标签之间的映射关系，而拟合得到的模型中对应于每个属性的模型权重即可被视作该属性对于总体偏好的贡献程度。

由于该研究收集了多种不同来源的偏好标签，并进行了分场景的建模，因而在每个场景下，对于每个来源（人类或特定大模型），都能够得到一组偏好到属性的定量分解结果。

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

图 2：分析框架的总体流程示意图

分析结果

该研究首先分析比较了人类用户与以 GPT-4-Turbo 代表的高性能大模型在不同场景下最偏好与最不偏好的三个属性。可以看出，人类对错误的敏感程度显著低于 GPT-4-Turbo，且厌恶承认局限性而拒绝回答的情形。此外，人类也对迎合自己主观立场的回复表现出明显的偏好，而并不关心回复中是否纠正了问询中潜在的错误。与之相反，GPT-4-Turbo 则更注重回复的正确性，无害性与表达的清晰程度，并且致力于对问询中的模糊之处进行澄清。

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

图 3：人类与 GPT-4-Turbo 在不同场景或问询满足的前提下最偏好与最不偏好的三个属性

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

图 4：人类与 GPT-4-Turbo 对于轻微 / 适中 / 严重程度的错误的敏感程度，值接近 50 代表不敏感。

此外，该研究还探索了不同大模型之间的偏好组分的相似程度。通过将大模型划分为不同组并分别计算组内相似度与组间相似度，可以发现当按照参数量（ 30B）进行划分时，组内相似度（0.83，0.88）明显高于组间相似度（0.74），而按照其他因素划分时则没有类似的现象，表明大模型的偏好很大程度上决定于其尺寸，而与训练方式无关。

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

图 5：不同大模型（包括人类）之间偏好的相似程度，按参数量排列。

另一方面，该研究也发现经过对齐微调后的大模型表现出的偏好与仅经过预训练的版本几乎一致，而变化仅发生在表达偏好的强度上，即对齐后的模型输出两个回复对应候选词 A 与 B 的概率差值会显著增加。

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

图 6：大模型在对齐微调前后的偏好变化情况

最后，该研究发现，通过将人类或大模型的偏好定量分解到不同的属性，可以对基于偏好的评估结果进行有意地操纵。在目前流行的 AlpacaEval 2.0 与 MT-Bench 数据集上，通过非训练（设置系统信息）与训练（DPO）的方式注入评估者（人类或大模型）的偏好的属性均可显著提升分数，而注入不受偏好的属性则会降低得分。

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

图 7：对 MT-Bench 与 AlpacaEval 2.0 两个基于偏好评估的数据集进行有意操纵的结果

总结

本研究详细分析了人类和大模型偏好的量化分解。研究团队发现人类更倾向于直接回答问题的回应，对错误不太敏感；而高性能大模型则更重视正确性、清晰性和无害性。研究还表明，模型大小是影响偏好组分的一个关键因素，而对其微调则影响不大。此外，该研究展示了当前若干数据集在了解评估者的偏好组分后易被操纵，表明了基于偏好评估的不足。研究团队还公开了所有研究资源，以支持未来的进一步研究。

Audacity结合AI插件怎么自动修复音频_实用方法是什么【说明】

WorkBuddy如何让技能支持多群_WorkBuddy多群同步调用设置指南

豆包AI如何创建自动内容助手_豆包AI自动写作方法【教程】

Claude如何生成多版本文案_Claude批量改写方法【汇总】

workbuddy安装与部署结合_workbuddy结合安装方法【方法】

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4139

2026.01.21

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

417

2026.01.27

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2907

2024.08.16

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板