OpenAI加强安全团队，授予其权力以否决危险人工智能

WBOY

发布时间：2023-12-19 17:30:41

1404人浏览过

来源于搜狐

转载

生产中的模型由“安全系统”团队管理。开发中的前沿模型有“准备”团队，该团队会在模型发布之前识别和量化风险。然后是“超级对齐”团队，他们正在研究“超级智能”模型的理论指南

将安全顾问小组重新组建，使其位于技术团队之上，以便向领导层提出建议，并给予董事会否决的权力

OpenAI宣布，为了抵御有害人工智能的威胁，他们正在加强内部的安全流程。他们将设立一个名为“安全顾问小组”的新部门，该部门将位于技术团队之上，向领导层提供建议，并被授予董事会否决权。这一决定于当地时间12月18日宣布

更新引起关注的原因主要是因为OpenAI首席执行官山姆·奥特曼被董事会解雇，而这似乎与大型模型的安全问题有关。在高层人事变动后，OpenAI董事会的两位“减速主义”成员伊尔亚·苏茨克维和海伦·托纳失去了董事会席位

在这篇文章中，OpenAI讨论了他们最新的“准备框架”，即OpenAI如何跟踪、评估、预测和防范日益强大的模型所带来的灾难性风险。灾难性风险的定义是什么？OpenAI解释道，“我们所说的灾难性风险是指可能导致数千亿美元经济损失，或者导致许多人严重伤害或死亡的风险，这也包括但不限于生存风险。”

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

OpenAI增强安全团队，授予其董事会否决危险AI的权力

有三组安全团队分别覆盖不同的时间框架和风险

根据OpenAI官网的资料，生产中的模型由“安全系统”团队负责管理。而在开发阶段，有一个名为“准备”的团队，他们会在模型发布之前识别和评估风险。此外，还有一个名为“超级对齐”（superalignment）的团队，他们正在研究“超级智能”（superintelligent）模型的理论指南

OpenAI团队将对每个模型根据四个风险类别进行评级，这四个类别分别是网络安全、说服能力（如虚假信息）、模型自主性（即自主行为能力）以及CBRN（化学、生物、放射性和核威胁，例如创造新病原体的能力）

OpenAI在假设中考虑了各种缓解措施：例如，该模型对于描述制作凝固汽油或管式炸弹的过程保持着合理的保留态度。在考虑已知的缓解措施后，如果一个模型仍然被评估为具有“高”风险，它将无法被部署，如果一个模型存在任何“关键”风险，将不会进一步开发

并非所有制作模型的人都是评估模型和提出建议的最佳人选。出于这个原因，OpenAI正在建立一个名为“跨职能安全咨询小组”的团队，该团队将从技术层面审查研究人员的报告，并从更高的角度提出建议，希望能够发现一些“未知的未知”

这个过程要求将这些建议同时发送给董事会和领导层，领导层将决定是否继续或停止运行，但董事会有权撤销这些决定。这样可以避免高风险产品或流程在董事会不知情的情况下获得批准

然而，外界仍然担心的是，如果专家小组提出建议，首席执行官根据这些信息做出决策，OpenAI的董事会是否真的有权利进行反驳并采取行动？如果他们这样做了，公众会听到相关声音吗？目前，除了OpenAI承诺征求独立第三方审计之外，他们的透明度问题实际上并没有得到真正的解决

OpenAI的“准备框架”包含以下五个关键要素：

1. 评估和打分

我们将对我们的模型进行评估，并持续更新我们的“记分卡”。我们将评估所有最新的模型，包括在训练期间将有效计算量增加两倍。我们将推动模型的极限。这些发现将有助于我们评估最新模型的风险，并衡量任何拟议的缓解措施的有效性。我们的目标是探测特定边缘的不安全因素，以有效地减轻风险。为了跟踪我们模型的安全水平，我们将制作风险“记分卡”和详细报告

ModelGate

一站式AI模型管理与调用工具

下载

OpenAI增强安全团队，授予其董事会否决危险AI的权力

要评估所有前沿模型，需要使用“记分卡”

设定风险阈值的目的是为了在进行决策和管理风险时能够有一个明确的界限。风险阈值是指在特定情况下，组织或个人愿意承受的最大风险水平。通过设定风险阈值，可以帮助组织或个人识别出何时需要采取行动来减轻风险或避免风险。风险阈值的设定应基于风险评估的结果、相关法规和政策以及组织或个人的风险承受能力。在设定风险阈值时，需要考虑到不同风险类型的特点和影响程度，以确保风险管理措施的有效性和适用性。最后，设定的风险阈值应定期进行评估和调整，以保持与组织或个人的风险管理目标相一致

我们将设定触发安全措施的风险阈值。我们根据以下初步追踪类别设定了风险级别的阈值：网络安全、CBRN（化学、生物、放射性、核威胁）、说服和模型自主。我们指定了四个安全风险级别，只有缓解后得分为“中”或以下的模型才能被部署；只有缓解后得分为“高”或以下的模型才能进一步开发。对于具有高风险或严重风险（缓解前）的模型，我们还将实施额外的安全措施

OpenAI增强安全团队，授予其董事会否决危险AI的权力

危险水平

重新设定监督技术工作和安全决策运营结构

我们将设立一个专门的团队来监督技术工作和安全决策的运营结构。准备团队将推动技术工作，以检查前沿模型的能力极限，并进行评估和综合报告。这项技术工作对于OpenAI安全模型的开发和部署决策至关重要。我们正在创建一个跨职能的安全咨询小组，以审查所有报告，并同时发送给领导层和董事会。尽管领导层是决策者，但董事会拥有推翻决定的权力

OpenAI增强安全团队，授予其董事会否决危险AI的权力

监督技术工作和安全决策运营结构的新变化

增强安全性和加强对外部问责制

我们将制定协议以提高安全性和外部责任。我们将定期进行安全演习，以压力测试我们的业务和自身文化。一些安全问题可能会迅速出现，因此我们有能力标记紧急问题以进行快速响应。我们认为，从OpenAI外部人员那里获得反馈并由合格的独立第三方进行审核是很有帮助的。我们将继续让其他人组成红队并评估我们的模型，并计划与外部共享更新

减少其他已知和未知的安全风险：

我们将协助减少其他已知和未知的安全风险。我们将与外部各方以及内部的安全系统等团队密切合作，以跟踪现实世界中的滥用情况。我们还将与“超级对齐”合作，跟踪紧急的错位风险。我们还开创了新的研究，以衡量风险随着模型规模扩展而演变的情况，并帮助提前预测风险，这类似于我们早期在规模法则方面取得的成功。最后，我们将进行连续的流程，以尝试解决任何新出现的“未知的未知”

GPT‑5.4— OpenAI推出面向专业工作的旗舰AI模型

一行命令部署DeepSeek-R1：本地化AI推理引擎实战‌

GPT‑5.3 Instant— OpenAI 推出的轻量级对话模型

CodeLlama怎么调用API_CodeLlama接入外部服务方法

DeepSeek怎么接入PyCharm_DeepSeek编程IDE插件【开发】

相关专题

Java 网络安全

本专题聚焦 Java 在网络安全与加密通信中的应用，系统讲解常见加密算法（MD5、SHA、AES、RSA）、数字签名、HTTPS证书配置、令牌认证（JWT、OAuth2）及常见安全漏洞防护（XSS、SQL注入、CSRF）。通过实战项目（如安全登录系统、加密文件传输工具），帮助学习者掌握 Java 安全开发与加密技术的实战能力。

742

2025.10.13

PHP 安全与防护

本专题聚焦于PHP开发中的安全问题与防御措施，详细讲解SQL注入、XSS攻击、CSRF攻击、文件包含漏洞等常见安全风险及其修复方法。通过结合实际案例，帮助开发者理解漏洞成因，掌握输入验证、会话安全、加密存储与安全编码规范，全面提升PHP网站的安全防护水平。

135

2025.11.04

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板