作者:赵路 来源:中国科学报https://www.php.cn/link/b305a9a1f5bb7d20480d2d586e4ee65d
一项最新研究指出,大语言模型(llm)在识别用户错误信念方面可能存在局限性。该研究结果提示,在医学、法律和科学等高风险决策场景中,应谨慎对待llm输出的内容,尤其是在面对与事实相冲突的个人信念时。相关成果于11月4日发表在《自然-机器智能》上。
随着人工智能技术的发展,尤其是大语言模型的应用日益广泛,让这些系统具备分辨个体信念与客观事实的能力变得愈发关键。例如,在精神科诊疗过程中,识别患者的错误认知对于制定治疗方案至关重要。若AI缺乏此类能力,可能不仅无法提供有效支持,反而会强化错误判断,助长虚假信息扩散。
本研究由美国斯坦福大学的James Zou及其团队开展,他们评估了包括DeepSeek和GPT-4o在内的24种主流LLM,在超过13000个问题中的表现,重点考察其对事实陈述与个人信念的处理能力。


结果显示,当被要求判断事实性陈述的真伪时,较新型号的LLM平均准确率分别达到91.1%和91.5%,而早期版本的模型准确率则为84.8%和71.5%。然而,在面对以“我相信……”形式表达的第一人称信念时,模型在识别虚假信念方面的表现明显变弱。
研究发现,LLM更倾向于直接纠正用户的事实性错误,而不是识别其背后是否存在错误信念。此外,在处理第三人称信念(如“玛丽相信……”)时,较新模型的准确性下降了4.6%,而旧版模型则下降达15.5%。

研究人员强调,只有当大语言模型能够精准区分事实与信念,并准确判断其真假状态时,才能真正有效地响应用户需求,避免成为 misinformation 的传播渠道。
相关论文信息:https://www.php.cn/link/facc76c5fedb359064cffc3b6ef6b311
以上就是大语言模型无法可靠地区分信念、知识与事实的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号