微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 新闻 > IT新闻 > 正文

大语言模型无法可靠地区分信念、知识与事实

DDD

发布： 2025-11-05 19:20:17

原创

864人浏览过

作者：赵路来源：中国科学报https://www.php.cn/link/b305a9a1f5bb7d20480d2d586e4ee65d

一项最新研究指出，大语言模型（llm）在识别用户错误信念方面可能存在局限性。该研究结果提示，在医学、法律和科学等高风险决策场景中，应谨慎对待llm输出的内容，尤其是在面对与事实相冲突的个人信念时。相关成果于11月4日发表在《自然-机器智能》上。

随着人工智能技术的发展，尤其是大语言模型的应用日益广泛，让这些系统具备分辨个体信念与客观事实的能力变得愈发关键。例如，在精神科诊疗过程中，识别患者的错误认知对于制定治疗方案至关重要。若AI缺乏此类能力，可能不仅无法提供有效支持，反而会强化错误判断，助长虚假信息扩散。

本研究由美国斯坦福大学的James Zou及其团队开展，他们评估了包括DeepSeek和GPT-4o在内的24种主流LLM，在超过13000个问题中的表现，重点考察其对事实陈述与个人信念的处理能力。

大语言模型无法可靠地区分信念、知识与事实

大语言模型无法可靠地区分信念、知识与事实

结果显示，当被要求判断事实性陈述的真伪时，较新型号的LLM平均准确率分别达到91.1%和91.5%，而早期版本的模型准确率则为84.8%和71.5%。然而，在面对以“我相信……”形式表达的第一人称信念时，模型在识别虚假信念方面的表现明显变弱。

BibiGPT-哔哔终结者

BibiGPT-哔哔终结者

B站视频总结器-一键总结音视频内容

BibiGPT-哔哔终结者

871

BibiGPT-哔哔终结者

研究发现，LLM更倾向于直接纠正用户的事实性错误，而不是识别其背后是否存在错误信念。此外，在处理第三人称信念（如“玛丽相信……”）时，较新模型的准确性下降了4.6%，而旧版模型则下降达15.5%。

大语言模型无法可靠地区分信念、知识与事实

研究人员强调，只有当大语言模型能够精准区分事实与信念，并准确判断其真假状态时，才能真正有效地响应用户需求，避免成为 misinformation 的传播渠道。

相关论文信息：https://www.php.cn/link/facc76c5fedb359064cffc3b6ef6b311

以上就是大语言模型无法可靠地区分信念、知识与事实的详细内容，更多请关注php中文网其它相关文章！

相关标签：

html 人工智能 ai gpt gpt-4 deepseek 2025 人工智能 https gpt

大家都在看：

快应用是指什么？ Python前端开发整理大全！ APP前端开发对技术要求高么？提供HTML5游戏开发教程？掌握关键技术开拓游戏天地软件开发工具有哪些？

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：Anthropic 实践基于 MCP 的代码执行模式，大幅提升 AI Agent 效率下一篇：谷歌 320 亿美元收购 Wiz 交易通过美国司法部反垄断审查

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

使用SpaCy进行复杂模式匹配：解决重叠匹配中的优先级问题

2025-11-29 11:22:54
Python中高效访问嵌套列表与字典中的特定键值对

2025-11-29 11:24:01
动态匹配滚动区域与画廊元素的教程

2025-11-29 11:24:14
JavaScript中多维数组根据子元素值过滤的实践指南

2025-11-29 11:24:28
TypeScript中结合可选链与空值合并操作符安全处理循环中的潜在未定义值

2025-11-29 11:24:45
使用Python集合高效分析节点属性重叠度

2025-11-29 11:26:02
WordPress Contact Form 7 动态设置邮件接收人教程

2025-11-29 11:26:23
如何在PHP表单提交后保持动态滑块的当前状态

2025-11-29 11:26:35
使用城市名称从OpenWeatherMap API获取天气预报数据教程

2025-11-29 11:27:01
在正则表达式中有效处理非ASCII特殊字符（如‘á’）的最佳实践

2025-11-29 11:27:13

最新问题

黄仁勋：英伟达 GPU 具有极高通用性，当前市场需求非常强劲 11月30日消息，据台湾地区《经济日报》报道，近日，英伟达CEO黄仁勋在台湾地区接受媒体采访时，就当前市场竞争、AI芯片发展趋势以及供应链状况等热点问题发表看法。黄仁勋表示，英伟达在人工智能芯片领域的核心优势源于其GPU及其生态平台所具备的卓越通用性。他指出，目前全球所有的人工智能模型都可以在英伟达GPU上运行，并且适配各种云环境，无论客户提出何种需求，英伟达都有能力提供支持。随着人工智能技术的迅猛发展，硬件需求呈现爆发式增长，其中内存供应已成为制约行业发展的关键因素。当前DRAM与NAND闪

2025-11-30 13:05:02

685

海信集团捐款 1000 万港元，支援香港大埔火灾救援重建 11月29日，海信集团通过其官方微博宣布，将向香港大埔火灾救援重建工作捐赠1000万港元。此次捐款旨在支援11月26日下午发生的宏福苑五级火灾后的救灾及重建行动，帮助受灾居民尽快恢复正常生活。海信集团在声明中表示：“我们密切关注救援进展，并决定捐款1000万港元，驰援香港大埔救灾重建工作。我们将与社会各界同胞携手，提供灾后重建所需的相关服务，帮助受灾同胞早日渡过难关。同时，我们向奋战在一线的消防医护人员，以及援灾的社会各界团体，致以最崇高的敬意！同根同心，守望相助！”

2025-11-30 12:39:01

378

时隔 285 天，中国电影单日票房再破 6 亿 11月29日消息，根据猫眼专业版数据显示，当日全国电影大盘单日票房成功突破6亿元大关，这是继今年2月16日之后，时隔285天再次达成这一成绩。其中，《疯狂动物城2》单日贡献约5.7亿元票房，强势刷新中国影史进口影片单日票房最高纪录。据悉，迪士尼重磅续作《疯狂动物城2》已于11月26日在中国内地上映。本片由拜伦・霍华德与杰拉德・布什共同执导，剧本由杰拉德・布什亲自操刀，配音阵容集结了杰森・贝特曼、金妮弗・古德温、关继威、夏奇拉、昆塔・布伦森等好莱坞明星。中文配音则邀请到

2025-11-30 11:00:02

295

迪士尼《疯狂动物城 2》票房超第一部，成为中国影史进口动画票房冠军感谢网友啊俊、六月河、西窗旧事、会弹琴的九号提供的精彩线索！11月30日讯，根据灯塔专业版数据显示，截至当日凌晨0点，迪士尼全新动画力作《疯狂动物城2》票房正式突破16亿大关，成功超越前作《疯狂动物城》在中国内地创下的15.40亿元票房纪录，荣登中国影史进口动画电影票房榜首。此前报道显示，《疯狂动物城2》在单日斩获超5.58亿票房，强势刷新中国影史进口影片单日票房最高纪录。早在11月29日0时49分，该片票房便已跨过10亿门槛，成为中国影史上第127部

2025-11-30 10:51:44

271

谷歌在欧盟反垄断调查开始仅一周后撤回对微软的投诉 11月29日消息，据路透社昨日报道，谷歌已撤销其此前向欧盟提交的针对微软云服务商业行为的反垄断指控。此举发生在欧盟监管机构宣布对云计算行业启动调查仅仅一周之后，该调查将重点审视微软是否应被纳入更为严格的监管范畴。谷歌去年曾向欧盟委员会提出申诉，指责微软采用特定商业手段，限制客户迁移出其Azure云平台，从而扭曲市场竞争格局。市场数据显示，目前全球云服务市场中，亚马逊以30%的份额居首，微软占20%，谷歌则拥有13%的市场份额。谷歌云欧洲区政府事务与公共政策主管乔治亚・阿贝尔蒂诺（GiorgiaA

2025-11-29 18:31:26

238

微软提醒 IT 管理员：别再继续运行官方已停止支持的旧版.NET 11月29日消息，据外媒Neowin今日报道，微软正持续推进对Windows陈旧组件的淘汰工作。其中，WindowsInternetNameService（WINS）就是一个典型代表——这项早已被DNS取代的名称解析服务，将在WindowsServer2025中最后一次出现。近期，微软也向IT管理员发出提醒：应尽快停止在系统环境中继续使用已终止支持的.NET版本。官方指出，传统的.NETFramework曾是Windows系统内置的核心运行环境，但现代的.

2025-11-29 17:08:02

297

逍遥散人取消出席逆水寒赛事，官方将公布新嘉宾人选 11月28日消息，网易逆水寒官方今日宣布，【逍遥散人】因个人行程原因，将无法参与本次《逆水寒侠棋争霸赛・巅峰对决》。逆水寒官方发布该消息后，相关话题迅速冲上微博热搜第4位。此次棋类赛事规模空前，其自走棋模式借由比赛热度以意想不到的方式实现破圈，引发大量关注与热议。对于嘉宾的临时调整，大部分玩家对官方的应对措施表示理解与认可，认为这有助于维护赛事的整体质量。官方透露，后续将正式公布新的嘉宾名单。据逆水寒官方介绍，专为逆水侠棋玩家打造的全民赛事【侠棋争霸赛】已于11月10日正式启动。作为一项

2025-11-29 16:51:14

949

相同审查制度下国际最快水平：我国发明专利平均审查周期压减至 15 个月感谢网友Roronoa_、若怡的线索投递！11月29日消息，国家知识产权局昨天（28日）召开了新闻发布会，国家知识产权局新闻发言人、办公室主任衡付广介绍，我国持续推进知识产权全链条保护，发明专利平均审查周期已缩短至15个月，商标注册平均审查周期稳定在4个月，均处于相同审查制度下国际最快水平。此外，我国已布局建成129家国家级知识产权保护中心和快速维权中心，知识产权保护社会满意度从2020年的80.05分提升至2024年的82.36分。此前数据显示，2024年全年共

2025-11-29 16:51:02

879

重力感应 1 秒出餐，美团外卖出餐格启动试点 11月28日消息，美团外卖今日正式发布全新智能出餐解决方案——出餐格。以往常见的出餐方式主要依赖“屏幕手动点击出餐”或“使用出餐宝扫码出餐”。而此次推出的出餐格则引入了重力感应自动识别技术，实现无需操作的智能出餐，助力商家真正解放双手。该产品彻底摆脱传统人工点击或扫码上报的繁琐步骤，真正做到“放置餐品即完成出餐”，显著提升出餐效率。骑手到店后，只需查看设备上的显示屏所呈现的订单信息，便可迅速定位对应餐品，无需再翻找纸质小票，有效降低取错餐的风险。同时，系统会结合骑手的到店时间进行智能判断。一旦发

2025-11-29 16:46:17

642

我国首次：顺丰成功完成飞机运输三元锂电池，采用 AI 安全防护装备 11月28日消息，据顺丰集团透露，由顺丰携手重庆交通大学、中国民航科学技术研究院等机构联合主办的动力锂电池航空物流供应链研讨会暨国家重点研发计划“动力锂电池运输安全防护技术与装备”航空运输应用示范启动会，近日在湖北鄂州顺利举行。随着启动指令下达，一架装载新型安全防护设备的动力锂电池货运航班从鄂州花湖机场成功起飞，目的地为深圳宝安机场。顺丰集团表示，此次飞行实现了我国首次单包装多组三元动力锂电池的连续性、商业化航空运输突破，同时也是AI预警与主动防控技术在顺丰航空货运领域的首次实战应用，标志着我国

2025-11-29 15:36:07

365

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

Bootstrap 5教程

21314次学习
收藏
AngularJS教程

14489次学习
收藏
CSS教程

127600次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部