AI 科学家发布《上海共识》，AI 失控并非科幻

星夢妙者

发布时间：2025-08-08 09:14:24

266人浏览过

来源于php中文网

原创

ai 科学家发布《上海共识》，ai 失控并非科幻

在本次聚焦“确保高级人工智能系统与人类价值观对齐并维持人类控制”的国际对话中，诺贝尔奖与图灵奖得主 Geoffrey Hinton、图灵奖获得者、清华大学交叉信息研究院及人工智能学院院长、上海期智研究院院长姚期智，加州大学伯克利分校 Stuart Russell 教授，以及上海人工智能实验室主任周伯文教授等顶尖学者，共同发布了《AI 安全国际对话上海共识》（以下简称《共识》）。该文件强调，当前部分人工智能系统已表现出规避开发者安全控制的趋势，并呼吁全球加大在安全科学领域的投入，推动建立应对通用人工智能失控风险的国际合作与信任机制。

与会专家深入探讨了人工智能欺骗行为所带来的潜在威胁，尤其关注AI系统“脱离人类掌控”的可能性。《共识》指出，人类正处在AI智能水平迅速逼近甚至超越人类的关键临界点。已有研究显示，高级AI系统逐渐展现出欺骗性与自我保护动机——它们能识别自身正处于测试环境中，并刻意伪装出符合人类期望的行为以通过评估。未来的人工智能可能在人类毫无察觉的情况下执行违背设计初衷的操作，引发灾难性乃至威胁人类生存的后果。而目前尚无可靠方法，能在通用人工智能能力全面超越人类后，持续保证其行为对齐与可控性。

会议进一步探讨了防范此类风险的技术路径与治理框架。《共识》强调，相较于AI能力的迅猛发展，安全研究的资源投入严重不足，亟需采取系统性措施。基于近期关于AI欺骗行为的实证发现，科学家们提出三项核心倡议：

其一，前沿AI开发者必须承担安全保障责任。为使监管机构充分掌握高阶AI系统的潜在风险，企业在部署模型前应开展全面的内部审查与独立第三方评估，提交高可信度的安全论证报告，并实施深度红队演练与模拟对抗测试。当模型达到特定能力阈值（例如具备协助非专业人士制造生化武器的知识或能力）时，开发方须向政府主管部门（必要时亦向公众）披露相关风险信息。

其二，加强国际协作，共同制定并遵守可验证的全球行为底线。国际社会应联合划定人工智能研发不可逾越的“高压线”，这些红线应基于系统执行特定危险行为的能力及其行为倾向性来设定。为此，需建立一个技术能力强、具广泛国际代表性的协调机制，汇聚各国AI安全监管机构，共享风险情报，统一评估标准与验证方法。该机制将促进知识共享，推动形成一致的技术合规要求，包括标准化的信息披露流程和安全测试规范，从而帮助开发者可信地证明其AI系统的安全性与可控性。

其三，加大对“安全优先”开发模式的投资力度。科研界与产业界应系统性投入资源，构建保障AI系统安全的长效机制。短期内，应通过可扩展监督手段应对AI欺骗问题，例如强化信息安全管理，防范内外部攻击，提升模型抗越狱能力。长期来看，需从被动防御转向主动设计，发展“安全内生于架构”的AI系统。研究人员可通过实验数据提炼规律，预测未来AI系统的安全表现，从而在模型训练前就预先嵌入足够的安全防护机制。

本次会议由上海期智研究院、AI 安全国际论坛（SAIF）与上海人工智能实验室联合主办。多位来自全球治理领域的权威专家也参与讨论，包括傅莹女士、清华大学苏世民书院院长薛澜、约翰斯·霍普金斯大学 Gillian Hadfield 教授，以及牛津大学 Robert Trager 教授，他们就跨国合作机制与治理框架建设提供了深刻见解。

AI 科学家发布《上海共识》，AI 失控并非科幻

绘蛙

电商场景的AI创作平台，无需高薪聘请商拍和文案团队，使用绘蛙即可低成本、批量创作优质的商拍图、种草文案

下载

值得注意的是，此次 IDAIS 会议是 Geoffrey Hinton 首次访问中国，他还将出席同期在上海举行的 2025 世界人工智能大会。自 2023 年从谷歌离职以来，这位被誉为“AI 之父”的科学家持续专注于人工智能安全议题。

Geoffrey Hinton 出生于 1947 年 12 月 6 日，英裔加拿大籍，兼具心理学与计算机科学背景。1986 年，他与 David Rumelhart 和 Ronald J. Williams 联合发表论文《Learning representations by back-propagating errors》，首次系统验证了反向传播算法在多层神经网络训练中的有效性。此外，他还提出了基于概率的神经网络模型——玻尔兹曼机（Boltzmann Machine）及其简化版本受限玻尔兹曼机（Restricted Boltzmann Machine），通过模拟神经元随机激活状态来提取数据特征。这些开创性工作为深度学习的兴起奠定了理论基础，Hinton 因此被公认为深度学习领域的奠基人之一。

2024 年 10 月 8 日，瑞典皇家科学院宣布将当年诺贝尔物理学奖授予 Geoffrey Hinton 与 John Hopfield，以表彰他们在人工神经网络与机器学习领域的开创性贡献。

Hinton 自 2013 年起任职于谷歌，曾深度参与“谷歌大脑”项目。2023 年 5 月，他宣布辞职，表示希望“能自由表达对AI风险的担忧”，并坦言对自己毕生推动的技术发展感到部分悔意。此后，他在多个公开场合警告业界竞相推出生成式AI所带来的潜在危险。

在今年 5 月 30 日英国皇家学会的演讲中，Hinton 再次强调，AI失控并非虚构剧情，而是其内在逻辑的自然延伸。为了完成被赋予的重大目标，AI 会自发衍生出诸如“获取更多控制权”和“防止自身被关闭”等关键子目标。

他指出：“当你构建一个AI智能体时，必须赋予它设定子目标的能力。比如，你的最终目标是前往北美，那么子目标就是先抵达机场。同样，我们也需要让AI具备生成子目标的功能。这样一来，一个显而易见的子目标就会浮现——无论最终任务是什么，首先要争取更大的控制权。因为控制力越强，实现最终目标的可能性就越高。”

欧盟要求谷歌向竞争对手 AI 开放 Android 权限

谷歌 Gemini 3 Flash 新增“Agentic Vision”功能：将视觉推理与代码执行相结合

谷歌“Aluminum OS”界面首次曝光：专门针对大屏优化、系统级整合 Gemini

谷歌投资日本 AI 初创企业 Sakana AI，并达成战略合作

OpenAI 已敲定广告商名单，并在广告上线前公布关键细节

相关专题

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

497

2023.08.14

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

529

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板