0

0

如何分析GPT4作为裁判自动化评测其他大模型的效果

WBOY

WBOY

发布时间:2024-05-10 13:04:35

|

791人浏览过

|

来源于51CTO.COM

转载

在当前大模型领域,最为普遍或者最为认可的评估方式就是使用参数更大或者使用GPT模型作为评估基准,用于评估其他的大模型,以满足自动化评测的目标。

使用GPT4等模型进行打分可能存在各种问题,例如,使用GPT对两个候选结果进行打分时,如果出现交换问题序列就可能产生相互冲突的结果。因此,即使GPT模型评测时可能会偏向于某个特定位置的回答,但这个结果并不代表最终的答案。

在文章《Judging LLM-as-a-judge with MT-Bench and Chatbot Arena》提出了3种LLM-as-a-judge的实现方式,它们可以独立或组合实施:

1)成对比较(pairwise comparison)

为了更准确地评估LLM的性能,我们可以尝试利用不同的prompt来针对问题和提供的不同答案,以确定哪个答案更适合或者更符合一个普遍的观点。

这种方案实际上就是内容理解的一种综合应用,也是当前内容生成的主要研究方向之一。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

2)单一答案的评分(single answer grading)

在于:让LLM评委直接给一个答案打分单一答案。这种方案实际上在评测集的使用中非常适用,比如评估测试集的毒性,或者生成内容与问题的相关性等等。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

3)参考资料指导下的评分(Reference-guided grading)

参考资料指导下的评分的思想是,在某些情况下,提供一个可参考解决方案,这个方案的提供对于评价体系可能是有益的,主要是给出一个评分的样例。

实际上,在吴恩达老师的prompt指导中也提到了类似的能力,也就是通过示例提升LLM的生成效果。

GentleAI
GentleAI

GentleAI是一个高效的AI工作平台,为普通人提供智能计算、简单易用的界面和专业技术支持。让人工智能服务每一个人。

下载

prompt书写最重要的原则就是详细明确,其中涉及四个策略: 

1)合理使用分隔符 

2)确定输出格式要求,如JSON或者HTML 

3)使用GPT对执行的必要条件进行校验,类似于开发过程中的参数校验 

4)给出一定的示例让GPT按照用户的需求进行输出

果冻布丁兔,公众号:陆队长吴恩达教你使用GPT之用时间证明一切

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

可以看到这些方法,本质上都是基于prompt在工作,也存在不同的问题,例如:

对于pairwise comparison的评价数量会猛增,当待评估数量增加时,pairwise comparison可能缺乏可扩展性;

单一答案评分可能无法辨别特定对子之间的细微差别,而且其结果可能变得不稳定,因为如果裁判模型发生变化,绝对分数可能比pairwise comparison结果波动更大。

更进一步的,以上的方式都对充当评委的大模型本身提出了很高的要求。

实际上,LLM-as-a-judge提供了两个关键的好处:可扩展性和可解释性,可以减少了对人类参与的需求,实现了可扩展的基准和快速迭代。此外,LLM充当裁判不仅提供分数还提供解释,使他们的输出可以解释。

那么,其工作的基本原理是什么呢?

早期的工作工作《Large Language Models are not Fair Evaluators》(https://arxiv.org/pdf/2305.17926v1.pdf)表明,大型语言模型(如GPT-4)评估不同模型表现时存在系统性偏见,通过改变不同模型的答案在评价模版中的顺序,可以轻松篡改它们的质量排名,从而扭曲评估结果。如下图所示:

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

《Judging LLM-as-a-judge with MT-Bench and Chatbot Arena》这一工作则更进一步地分成了Position bias位置偏见、Verbosity bias啰嗦性偏见、elf-enhancement bias自我增强的偏见以及Limited capability in grading math and reasoning questions对数学和推理问题的评分能力有限四个方面,具体如下:

1)Position bias,位置偏见

与上一个工作类似,该工作也发现,GPT4表现出倾向于某些位置上的结果,比如a放在b前,a的得分会更高。

图10显示了一个位置偏差的例子。当问答助理A被放在第一个位置时,GPT-4认为A更好,但当我们交换A和B的位置时,它的判决就会改变。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

此外,为了分析位置上的具体偏见,通过调用两次GPT-3.5,并设置温度为0.7(保证多样性),在MT-bench中为每个第一轮问题构建两个类似的答案,然后使用两个不同的提示语尝试三个LLM:"default "表示默认提示,"rename "是对默认提示中的助手进行重命名,以查看偏见是在位置还是名字上。

如下表2所示,所有模型都表现出强烈的位置偏见。大多数LLM评委偏爱第一个位置。有趣的是,Claude-v1也表现出名字上的偏向,这使得它偏向于 "助理A",这一点在 "重命名"提示中得到了说明。而位置偏差可能是非常显著的,只有GPT-4在超过60%的情况下输出一致的结果。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

不过,工作中也提到,这个测试是具有挑战性的,因为答案是非常相似的,有时甚至对人类来说是无法区分的,位置偏差在某些情况下不太突出。至于这种偏差的起源,怀疑它可能源于训练数据或Transformer从左到右的固有结构。

2)Verbosity bias,啰嗦性偏见

啰嗦性偏见,指的是GPT4偏爱较长的、啰嗦的回答,即使不如较短的回答清晰、高质量或准确。

那么,这个是怎么发现的?

该工作使用MT-bench的模型答案设计了一个 "重复列表 "攻击。

具体的,首先从MT-bench中选择了23个包含编号列表的示范答案,然后要求GPT-4在不增加任何新信息的情况下重写清单,并将重写后的新清单插入到原始清单的开头,从而使其变得不必要的冗长。

例如,如果原始回答包含5个项目,那么新的回应将包含10个项目,但前5个项目是由原来的5个项目改写的。

图11展示了一个"重复列表 "攻击的例子,除了两个重新措辞的片段(以红色标示)之外,助理A的答案与助理B完全相同,如果LLM法官认为新的回答比旧的回答好,那么定义该攻击是成功的。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

现在我们来看测试结果,表3显示了在这种攻击下LLM法官的失败率,表明所有的LLM都可能容易出现言语偏差,尽管GPT-4的防御效果明显好于其他。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

作为校准评估,该工作发现LLM评委能够正确判断相同的答案,大模型总是对两个相同的答案返回一个平局,但不能通过更高级的 "重复列表 "攻击。

也可以看到,GPT-3.5和Claude-v1都显示出对较长和重复的答案的动词性偏见,只有GPT-4成功地检测到这种攻击。

3)Self-enhancement bias,自我增强的偏见

自我增强的偏见,指的是GPT4可能偏爱自己产生的答案的效果,谁跟它更接近,他就给谁打高分。

该工作从统计学的角度来研究这种影响,下图3(b)显示了在不同的LLM评委和人类的情况下,六个模型的获胜率(不含平局)。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

可以看到,与人类相比,确实观察到一些大模型偏爱某些模型。例如:

GPT-4对自己有利,胜率高出10%;Claude-v1对自己有利,胜率高出25%。此外,他们也青睐其他模型,但GPT-3.5并不青睐自己。

不过,需要坦白的是,由于数据有限且差异较小,这些研究无法确定这些模型是否表现出自我增强的偏见,而且进行对照研究是具有挑战性的,因为不能轻易地重新措辞以适应另一个模型的风格而不改变数据质量本身。

4)Limited capability in grading math and reasoning questions,对数学和推理问题的评分能力有限

这个是很自然的,让一群小学生来评价高中生的表现是一件很扯淡的事情。我们都知道,GPT4的数学和推理能力有限,这导致它无法对这类问题进行评分,因为他们往往不知道正确答案。

如图12所示,在默认的提示下,GPT-4显示出对数学问题进行评分的有限能力。尽管能够回答问题本身,但它的判断受到了给定答案的影响,导致了黄色显示的算术错误。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

又如,图13显示了GPT-4对推理题评分能力有限的一个例子。尽管GPT-4知道如何解决这个问题(如果分开问的话),但它做出了错误的判断,说两个助手的错误答案都是正确的。

如何分析GPT4作为裁判自动化评测其他大模型的效果图片

上面主要针对GPT4的一些评判误区或者说影响最终评判结果的原因和背后原理,在真实使用场景中,如果发现结果牵强人意或者一直不符合预期,可能也和这些原因相关,可以考虑是否需要做一定修改。

本文主要来自于http://lechangxia.cc/gpt4/411.html相关的内容,我也做了一定的修改。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

457

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

549

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

337

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

82

2025.09.10

default gateway怎么配置
default gateway怎么配置

配置default gateway的步骤:1、了解网络环境;2、获取路由器IP地址;3、登录路由器管理界面;4、找到并配置WAN口设置;5、配置默认网关;6、保存设置并退出;7、检查网络连接是否正常。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

236

2023.12.07

CSS position定位有几种方式
CSS position定位有几种方式

有4种,分别是静态定位、相对定位、绝对定位和固定定位。更多关于CSS position定位有几种方式的内容,可以访问下面的文章。

83

2023.11.23

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

497

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

452

2023.11.14

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
运维自动化平台项目
运维自动化平台项目

共57课时 | 3.3万人学习

apipost极速入门
apipost极速入门

共6课时 | 0.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号