谷歌砸了4亿刀的Anthrophic：AI模型训练计算量5年增加1000倍！

PHPz

发布时间：2023-04-11 19:27:40

1377人浏览过

来源于51CTO.COM

转载

自从发现缩放定律以来，人们认为人工智能的发展会像坐火箭一样迅速。

2019年的时候，多模态、逻辑推理、学习速度、跨任务转移学习和长期记忆还是会有减缓或停止人工智能进展的「墙」。在此后的几年里，多模态和逻辑推理的「墙」都已经倒下了。

鉴于此，大多数人已经越来越相信，人工智能的快速进展将继续下去，而不是停滞不前或趋于平稳。

现在，人工智能系统在大量任务上的表现已经接近人类水平，而且训练这些系统的成本远远低于哈勃太空望远镜、大型强子对撞机这类「大科学」项目，所以说，AI未来的发展潜力巨大。

不过随之发展所带来的的安全隐患问题也越来越凸显。

对于人工智能的安全问题，Anthropic分析了三种可能性：

Bolt.new

Bolt.new是一个免费的AI全栈开发工具

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

乐观情况下，先进的人工智能因安全故障而产生灾难性风险的可能性非常小。已经开发的安全技术，如从人类反馈中强化学习（RLHF）和宪法人工智能（CAI），已经基本上足以应对风险。

主要风险是故意滥用，以及由广泛的自动化和国际权力动态的转变等导致的潜在危害，这将需要人工智能实验室和第三方，如学术界和民间社会机构，进行大量的研究，来帮助政策制定者驾驭高级人工智能带来的一些潜在的结构性风险。

不好也不坏的情况下，灾难性的风险是先进的人工智能发展的一个可能甚至是合理的结果，我们需要大量的科学和工程努力来避免这些风险，例如通过Anthropic所提供的「组合拳」，我们就能规避风险。

Anthropic目前的安全研究

Anthropic目前正在各种不同的方向上工作，主要分为三个领域：AI在写作、图像处理或生成、游戏等方面的能力；开发新的算法来训练人工智能系统的对齐能力；评估和理解人工智能系统是否真的对齐、效果如何，以及其应用能力。

Anthropic开展了以下这些项目，来研究如何训练安全的人工智能。

机制可解释性

机制可解释性，即试图将神经网络逆向工程变成人类可以理解的算法，类似于人们对一个未知的、有可能不安全的计算机程序进行逆向工程。

Anthropic希望它可以使我们能够做一些类似于「代码审查」的事情，可以对模型进行审查、确定不安全的方面来提供强有力的安全保证。

这是一个非常困难的问题，但也不像看上去那样不可能。

一方面，语言模型是大型的、复杂的计算机程序（「叠加」的现象会使事情变得更难）。另一方面，有迹象表明，这种方法比人们最初想象得更容易解决。而Anthropic已经成功地将这种方法扩展到小型语言模型，甚至发现了一种似乎可以驱动语境学习的机制，而且对于负责记忆的机制也更为了解。

Antropic的可解释性研究想要填补其他种类的排列组合科学所留下的空白。例如，他们认为可解释性研究可以产生的最有价值的东西之一，是识别一个模型是否是欺骗性对齐的能力。

在许多方面，技术一致性问题与检测人工智能模型的不良行为的问题密不可分。

如果在新情况下，也能稳健地检测出不良行为（例如通过 "阅读模型的思想"），那么我们就能够找到更好的方法来训练模型，不去表现出这些故障模式。

Anthropic相信，通过更好地了解神经网络和学习的详细工作原理，可以开发出更广泛的工具来追求安全。

可扩展的监督

将语言模型转化为统一的人工智能系统，需要大量的高质量反馈来引导它们的行为。主要是人类可能无法提供必要的准确反馈，来充分训练模型在广泛的环境中去避免有害的行为。

可能是人类会被人工智能系统愚弄，无法提供反映他们实际需求的反馈（例如，不小心为误导性建议提供了积极的反馈）。而且人类在规模上做不到这点，这就是可扩展的监督问题，也是训练安全、一致的人工智能系统的核心问题。

因此，Anthropic认为提供必要的监督的唯一方法，是让人工智能系统部分地监督自己或协助人类监督自己。以某种方式，将少量高质量的人类监督，放大为大量高质量的人工智能监督。

这个想法已经通过RLHF和宪法人工智能等技术显示出了希望，语言模型已经在预训练中学习了很多关于人类价值观的知识，可以期待更大的模型对人类价值观有更准确的认识。

可扩展监督的另一个关键特征，特别是像CAI这样的技术，是允许自动进行红队（又称对抗性训练）。也就是说，他们可以自动向人工智能系统生成有潜在问题的输入，看看它们如何反应，然后自动训练它们以更诚实和无害的方式行事。

除了CAI，还有人类辅助监督、AI-AI辩论、多Agent RL的红队，以及创建模型生成的评估等多种可扩展的监督方法。通过这些方法，模型可以更好地理解人类的价值观，行为也会更符合人类价值观。以此，Anthropic可以训练出更强大的安全系统。

学习过程，而不是实现结果

学习一项新任务的一种方式是通过试错。如果知道所期望的最终结果是什么，就可以不断尝试新的策略，直到成功。Anthropic把这称为「以结果为导向的学习」。

在这个过程中，智能体的策略完全由期望的结果决定，将趋向于选择一些低成本的策略，让它实现这一目标。

更好的学习方式通常是让专家指导你，去了解他们获得成功的过程。在练习回合中，你的成功可能并不重要，重要的是，你可以专注于改进你的方法。

随着你的进步，你可能会与你的教练协商，去寻求新的策略，看看它是否对你更有效。这叫做「过程导向的学习」。在以过程为导向的学习中，最终的结果不是目的，掌握过程才是关键。

至少在概念层面上，许多对高级人工智能系统安全性的担忧，都可以通过以过程为导向的方式训练这些系统来解决。

人类专家将继续理解人工智能系统所遵循的各个步骤，而为了使这些过程得到鼓励，它们必须向人类说明理由。

人工智能系统不会因为以不可捉摸或有害的方式获得成功而得到奖励，因为它们将只能根据其过程的有效性和可理解性获得奖励。

这样它们就不会因为追求有问题的子目标（如资源获取或欺骗）而得到奖励，因为人类或其智能体会在训练过程中为它的获取过程提供负面反馈。

Anthropic认为以「过程为导向的学习」可能是训练安全和透明系统的最有希望的途径，也是最简单的方法。

了解泛化

机制性的可解释性工作对神经网络所进行的计算进行了反向工程。Anthropic还试图对大型语言模型（LLM）的训练程序有一个更详细的了解。

LLMs已经展示了各种令人惊讶的新行为，从惊人的创造力到自我保护到欺骗。所有这些行为都来自于训练数据，但过程很复杂：

模型首先在大量的原始文本上进行「预训练」，从中学习广泛的表征，模拟不同智能体的能力。然后，它们以各种方式进行微调，其中一些可能会产生令人惊讶的后果。

由于微调阶段过度参数化，学习到的模型在很大程度上取决于预训练的隐性偏见，而这种隐性偏见来自于在世界大部分知识的预训练中建立的复杂的表征网络。

当一个模型的行为令人担忧时，例如当它扮演一个具有欺骗性的人工智能时，它是否只是对近乎相同的训练序列进行无害的「反刍」？还是说这种行为（甚至是会导致这种行为的信念和价值观）已经成为模型对人工智能助手概念的一个组成部分，以至于他们在不同的环境下都会应用这种概念？

Anthropic正在研究一种技术，尝试将模型的输出追溯回训练数据，以此来找出可以帮助理解这种行为的重要线索。

危险故障模式的测试

一个关键的问题是，先进的人工智能可能会发展出有害的突发行为，例如欺骗或战略规划能力，而这些行为在较小和能力较弱的系统中是不存在的。

在这种问题成为直接威胁之前，Anthropic认为能够预测它的方法就是建立环境。所以，他们故意将这些属性训练到小规模的模型中。因为这些模型的能力还不足以构成危险，这样就可以隔离和研究它们。

Anthropic对人工智能系统在「情境意识」下的行为特别感兴趣——例如，当它们意识到自己是一个在训练环境中与人类交谈的人工智能时，这会如何影响它们在训练期间的行为？人工智能系统是否会变得具有欺骗性，或者发展出令人惊讶的不理想的目标？

在理想的情况下，他们想要建立详细的量化模型，说明这些倾向是如何随规模变化的，这样就能提前预测到突然出现的危险故障模式。

同时，Anthropic也关注与研究本身相关的风险：

如果研究是在较小的模型上进行，不可能有严重的风险；如果在能力更强的大型模型上进行，就会有明显的风险。因此，Anthropic不打算在能够造成严重伤害的模型上进行这种研究。

社会影响和评估

Anthropic研究的一个关键支柱，是通过建立工具、测量，批判性地评估和理解人工智能系统的能力、限制和潜在的社会影响其潜在的社会影响。

例如，Anthropic已经发表了分析大型语言模型可预测性的研究，他们研究了这些模型的高级可预测性和不可预测性，并分析这种属性会如何导致有害行为。

在这项工作中，他们研究了红队语言模型的方法，通过探测模型在不同模型规模下的输出来发现并减少危害。最近，他们又发现目前的语言模型可以遵循指令，减少偏见和成见。

Anthropic非常关注人工智能系统的快速应用将如何在短期、中期和长期内影响社会。

通过对人工智能今天的影响进行严格的研究，他们旨在为政策制定者和研究人员提供他们需要的论据和工具，来帮助减轻潜在的重大社会危机，确保人工智能的好处可以惠及人们。

结语

人工智能会在未来十年内，对世界产生前所未有的影响。计算能力的指数级增长和人工智能能力的可预测改进表明，未来的技术要比如今的先进得多。

然而，如何确保这些强大的系统与人类价值观紧密结合，我们对此还没有一个扎实的理解，因此也无法保证将灾难性故障的风险降到最小。所以，我们要时时刻刻为不太乐观的情况做好准备。

通过多个角度的经验研究，Anthropic所提供的安全工作「组合拳」，似乎可以帮助我们解决人工智能的安全问题。

Anthropic提出的这些安全建议告诉我们：

「要提高我们对人工智能系统如何学习和推广到现实世界的理解，开发可扩展的人工智能系统监督和审查技术，创建透明和可解释的人工智能系统，培训人工智能系统遵循安全流程而不是追求结果，分析人工智能的潜在危险故障模式以及如何预防它们，评估人工智能的社会影响，以指导政策和研究等等。」

对于人工智能的完美防御之法，我们还处于摸索阶段，不过Anthropic很好地为大家指明了前路。

怎么用ai生成图片_ai人工智能生成图片的操作方法【详解】

人工智能如何评估模型准确率_人工智能计算PrecisionRecall指标教程

人工智能怎么加载预训练BERT_人工智能调用BERT做文本分类教程

人工智能怎么实现GAN图像生成_人工智能使用DCGAN生成新图片步骤

CHAT人工智能免费入口 ChatGPT官网免费在线使用入口

相关专题

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

497

2023.08.14

PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境（CLI）下的开发与应用，内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理，以及与 Linux 定时任务（Cron）的结合使用。通过实战示例，帮助开发者掌握使用 PHP 构建自动化脚本、批处理工具与后台任务程序的能力。

2025.12.13

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04