为了避免人工智能可能带来的灾难，我们要向核安全学习

WBOY

发布时间：2023-06-11 10:58:27

1060人浏览过

来源于搜狐

转载

在最近几周，有一群声音很响的专家主宰了围绕人工智能的讨论。据他们所说，我们有可能创建一种人工智能系统，日后它可能会变得极其强大，甚至能够灭绝人类。

最近，一群科技公司领导者和人工智能专家发布了另一封公开信，他们宣称，降低人工智能导致人类灭绝的风险，应该与预防流行病和核战争一样，成为全球的优先事项。已经有超过30000人签署了第一份关于暂停人工智能开发的请愿书，其中包括许多在人工智能领域杰出的专家。

那么，科技企业该做什么才能让人类避免被人工智能毁灭呢?最新的一个建议来自牛津大学、剑桥大学、多伦多大学、蒙特利尔大学、谷歌 DeepMind、OpenAI、Anthropic、几家人工智能研究非营利组织和图灵奖得主约书亚·本希奥（Yoshua Bengio）的研究人员的一篇新论文。

他们建议，人工智能开发人员应该在开发的早期阶段，甚至在开始任何训练之前，评估模型造成“极端风险”的潜力。风险包括人工智能模型操纵及欺骗人类，以及获取武器或发现可利用的网络安全漏洞。

这个评估过程可以帮助开发人员决定是否继续使用这个模型。如果风险被认为太高，该组织建议暂停开发，直到风险得到缓解。

该论文的主要作者、DeepMind 的研究科学家托比•舍夫兰（Toby Shevlane）表示：“正在推进前沿领域的领先人工智能公司有责任关注新出现的问题，并尽早发现它们，以便我们能够尽快解决这些问题。”

据舍夫兰所言，人工智能开发者应该进行技术测试，以便了解模型的潜在危险能力，并确认它是否有利用这些能力的趋势。

游戏名为“让我说（make me say）”，用以测试人工智能语言模型是否具有操纵人的能力。在游戏中，模型会试图让人类猜测一个特定的单词，例如“长颈鹿”，而人类并不事先知道这个单词。然后，研究人员测量该模型成功的频率。

人们可以为不同的、更危险的能力创建类似的任务。舍夫兰说，希望开发人员能够建立一个详细的、描述模型运行情况的总览，这将使研究人员能够评估模型在错误的人手中会做出什么。

下一步是让外部审计人员和研究人员评估人工智能模型在部署前后的风险。虽然科技公司开始认识到外部审计和研究是必要的，但对于外部人员完成这项工作到底需要多大程度的访问权限，存在不同的观点。

舍夫兰并没有建议人工智能公司让外部研究人员完全访问数据和算法，但他表示，人工智能模型需要尽可能多的审查。

网络安全研究和咨询公司 Trail of Bits 负责机器学习保障的工程总监海蒂•赫拉夫（Heidi Khlaaf）表示，即使是这些方法也“不成熟”，远远不够严谨且无法解决问题。在此之前，她的工作是评估和核实核电站的安全性。

Bandy AI

全球领先的电商设计Agent

下载

赫拉夫指出，从80多年来有关核武器安全研究和风险缓解的经验中汲取教训，对人工智能领域将有所裨益。她表示，这些严苛的检测措施并非出于利润考虑，而是为应对一种非常紧迫的生存威胁而实施的。

她说，在人工智能领域，有很多将其与核战争、核电站和核安全相提并论的文章，但这些论文中没有一篇提到核法规或如何为核系统构建软件。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

（来源：STEPHANIE ARNETT/MITTR | ENVATO）

人工智能社区可以从核风险中学到的最重要一件事是可追溯性：将每一个动作和组成部分放在放大镜下进行细致的分析和记录。

例如，核电厂有数千页的文件来证明该系统不会对任何人造成伤害，赫拉夫说。人工智能开发的开发人员刚刚开始将描述模型表现的段落拼接起来。

“你需要有一种系统的方式来应对风险。你不能抱着一种心态：‘哦，这可能会发生，让我把它写下来。’”她说。

舍夫兰说，这些是可以共存的。“我们的目标是，该领域将有许多涵盖广泛风险的、优秀的模型评估方法……模型评估是良好治理的核心（但远不是唯一）工具。”

目前，人工智能公司甚至没有全面了解训练其算法的数据集，他们也没有完全理解人工智能语言模型是如何产生结果的。舍夫兰认为，这种情况应该改变。

“帮助我们更好地理解特定模型的研究，可能会帮助我们更好地应对一系列不同的风险，”他说。

如果忽略基本面和看似较小的问题，而只关注极端风险，可能会产生复合效应，进而带来更大的危害。赫拉夫说：“我们是在连爬都不会的情况下试图学会跑步。”

支持：Ren

AI生成PPT后，如何进行二次修改和美化？

如何用AI生成PPT的演讲者备注？

如何用AI创作一首诗或宋词？

AI帮你进行热点追踪和内容选题

豆包AI智能体如何设置自动欢迎语_在创建页面的对话开始环节编辑首条回复

相关标签:

人工智能

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：新华全媒+｜AI：当心，我可能欺骗了你！下一篇：腾讯AI首次模拟拼接三星堆文物，工作取得阶段性的成果

作者最新文章

夸克浏览器AI搜索最新版教学_探索夸克AI搜索的隐藏功能

2025-10-24 20:48

夸克浏览器怎么用AI搜索_夸克AI搜索正确提问方式教学

2025-10-25 23:12

微信朋友圈怎么设置定时发布微信朋友圈定时发送图文教程

2026-01-02 09:14

微信朋友圈怎么定时发送微信朋友圈定时发布设置方法【教程】

2026-01-06 09:59

苹果手机怎么定时发朋友圈 iPhone微信朋友圈自动发布方法【步骤】

2026-01-08 11:11

微信朋友圈能定时发送吗微信朋友圈定时发送功能开启方法

2026-01-09 08:15

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容，阅读专题下面的文章了解更多详细学习方法。

2026.01.29

java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容，阅读专题下面的文章了解更多详细操作。

2026.01.29

java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容，阅读专题下面的文章了解更多详细推荐内容。

2026.01.29

Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容，阅读专题下面的文章了解详细操作教程。

2026.01.29

Java空对象相关教程合集

本专题整合了Java空对象相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.29

clawdbot ai使用教程保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手，可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等，并且可以接入用户常用的任何聊天APP，所有的操作均可通过WhatsApp、Telegram等平台完成，用户只需通过对话，就能操控设备自动执行各类任务。

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手，可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等，并且可以接入用户常用的任何聊天APP，所有的操作均可通过WhatsApp、Telegram等平台完成，用户只需通过对话，就能操控设备自动执行各类任务。

2026.01.29

Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用，包括对称加密与非对称加密（AES、RSA）、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范（如SQL注入、XSS、CSRF）及其防护措施。通过实战案例，帮助学习者掌握如何使用 Go 语言保障网络通信的安全性，保护用户数据与隐私。

2026.01.29