0

0

让大型AI模型自主提问:GPT-4打破与人类对话的障碍,展现更高水平的表现

WBOY

WBOY

发布时间:2023-11-13 08:26:32

|

1255人浏览过

|

来源于51CTO.COM

转载

在最新的人工智能领域动态中,人工生成的提示(prompt)质量对大语言模型(LLM)的响应精度有着决定性影响。OpenAI 提出的建议指出,精确、详细且具体的问题对于这些大语言模型的表现至关重要。然而,普通用户是否能够确保他们的问题对于 LLM 来说足够清晰明了?

需要重新写的内容是:值得注意的是,人类在某些情境下的自然理解能力与机器的解读存在明显差异。例如,“偶数月” 这一概念,在人类看来很明显指的是二月、四月等月份,而GPT-4却可能将其误解为天数为偶数的月份。这不仅揭示了人工智能在理解日常语境上的局限性,也促使我们反思如何更有效地与这些大型语言模型进行交流。随着人工智能技术的不断进步,如何弥合人类与机器在语言理解方面的鸿沟,是一个未来研究的重要课题

关于此事,加利福尼亚大学洛杉矶分校(UCLA)的顾全全教授领导的通用人工智能实验室发布了一份研究报告,提出了一种创新的解决方案,针对大语言模型(如 GPT-4)在问题理解上的歧义问题。这项研究是由邓依荷、张蔚桐和陈子翔博士生完成的

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

让大型AI模型自主提问:GPT-4打破与人类对话的障碍,展现更高水平的表现


  • 论文地址:https://arxiv.org/pdf/2311.04205.pdf
  • 项目地址: https://uclaml.github.io/Rephrase-and-Respond

重写后的中文内容为:该方案的核心是让大型语言模型对提出的问题进行复述和扩写,以提高回答的准确性。研究发现,经过GPT-4重新表述的问题变得更加详细,问题格式也更清晰。这种复述和扩写的方法显著提高了模型的回答准确率。实验表明,一个经过良好复述的问题使得回答的准确率从原来的50%提高到接近100%。这一性能提升不仅展示了大型语言模型自我改进的潜力,也为人工智能如何更有效地处理和理解人类语言提供了新的视角

方法

基于以上的发现,研究者提出了一个简单但效果显著的提示词 (prompt):“Rephrase and expand the question, and respond”(简称为 RaR)。这一提示词直接提高了 LLM 回答问题的质量,展示了在问题处理上的一个重要提升。

让大型AI模型自主提问:GPT-4打破与人类对话的障碍,展现更高水平的表现

研究团队还提出了 RaR 的一种变体,称为 “Two-step RaR”,以充分利用像 GPT-4 这样的大模型复述问题的能力。这种方法遵循两个步骤:首先,针对给定的问题,使用一个专门的 Rephrasing LLM 生成一个复述问题;其次,将原始问题和复述后的问题结合起来,用于提示一个 Responding LLM 进行回答。

让大型AI模型自主提问:GPT-4打破与人类对话的障碍,展现更高水平的表现

结果

让大型AI模型自主提问:GPT-4打破与人类对话的障碍,展现更高水平的表现

研究人员进行了不同任务的实验,结果表明,无论是单步 RaR 还是两步 RaR,都能有效地提高 GPT4 的回答准确率。值得注意的是,RaR 在原本对 GPT-4 极具挑战性的任务上展现出了显著的改进效果,甚至在某些情况下准确率接近 100%。研究团队总结了以下两点关键结论:

1. 复述并扩写(RaR)提供了一种即插即用的黑箱式提示方法,能够有效地提高 LLM 在各种任务上的性能。

2. 在评估 LLM 在问答(QA)任务上的表现时,检查问题的质量至关重要。

让大型AI模型自主提问:GPT-4打破与人类对话的障碍,展现更高水平的表现

研究人员采用了Two-step RaR方法进行研究,以探究GPT-4、GPT-3.5和Vicuna-13b-v.15等不同模型的表现。实验结果表明,对于那些具备更复杂架构和更强大处理能力的模型,例如GPT-4,RaR方法可以显著提升其处理问题的准确性和效率。而对于较为简单的模型,例如Vicuna,尽管改进幅度较小,但仍然表明了RaR策略的有效性。基于此,研究人员进一步检查了不同模型复述后问题的质量。对于较小模型的复述问题,有时可能会扰乱问题的意图。而像GPT-4这样的高级模型提供的复述问题与人类的意图相符,并且可以增强其他模型的回答效果

让大型AI模型自主提问:GPT-4打破与人类对话的障碍,展现更高水平的表现

这一发现揭示了一个重要的现象:不同等级的语言模型复述的问题在质量和效果上存在差异。特别是像 GPT-4 这样的高级模型,它复述的问题不仅能够为自身提供更清晰的问题理解,还能够作为一种有效的输入,提高其他较小模型的性能。

与思维链(CoT)的区别

为了理解 RaR 与思维链(CoT)之间的区别,研究人员提出了它们的数学表述,并阐明了 RaR 在数学上与 CoT 的不同之处,以及它们如何可以轻松结合。

让大型AI模型自主提问:GPT-4打破与人类对话的障碍,展现更高水平的表现

在深入探讨如何增强模型推理能力之前,这项研究指出应该提高问题的质量,以确保能正确评估模型的推理能力。例如,“硬币翻转”问题,人们发现GPT-4将“翻转(flip)”理解为随机抛掷的动作,与人类的意图不同。即使使用“让我们逐步思考”来引导模型进行推理,这种误解仍会在推理过程中存在。只有在澄清问题之后,大型语言模型才会回答预期的问题

让大型AI模型自主提问:GPT-4打破与人类对话的障碍,展现更高水平的表现

进一步的,研究人员注意到,除了问题文本之外,用于 few-shot CoT 的问答示例也是由人类编写的。这就引发了一个问题:当这些人工构造的示例存在缺陷时,大语言模型(LLM)会作出怎样的反应?该研究提供了一个很有意思的例子,并发现不良的 few-shot CoT 示例可能会对 LLM 产生负面影响。以 “末尾字母连接” 任务为例,先前使用的问题示例在提高模型性能方面显示出了积极效果。然而,当提示逻辑发生变化,比如从找到末尾字母变成找到首位字母,GPT-4 却给出了错误的答案。这一现象突显了模型对人工示例的敏感性。

让大型AI模型自主提问:GPT-4打破与人类对话的障碍,展现更高水平的表现

研究人员发现,使用 RaR,GPT-4 可以修正给定示例中的逻辑缺陷,从而提高 few-shot CoT 的质量和稳健性

结论

人类和大型语言模型(LLM)之间的交流可能存在误解:人类看似清晰的问题,可能会被大型语言模型理解成其他问题。UCLA研究团队提出了RaR这一新颖方法,该方法促使LLM先复述并澄清问题,然后再回答,从而解决了这个问题

RaR 的有效性已经通过在多个基准数据集上进行的实验评估得到证实。进一步的分析结果显示,通过复述问题可以提升问题质量,而这种提升效果可以在不同的模型之间转移

对于未来的展望来说,预计类似于 RaR 这样的方法将不断完善,同时与 CoT 等其他方法的整合将为人类和大型语言模型之间的互动提供更准确、更有效的方式,最终拓展 AI 解释和推理能力的边界

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

641

2026.01.21

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

453

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

309

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

633

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

34

2025.10.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2065

2024.08.16

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

4

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

6

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

16

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.5万人学习

Go 教程
Go 教程

共32课时 | 4.2万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号