0

0

Anthropic 开源 Petri:用 AI 代理自动进行模型安全审计

花韻仙語

花韻仙語

发布时间:2025-10-09 18:55:00

|

842人浏览过

|

来源于php中文网

原创

anthropic 开源 petri:用 ai 代理自动进行模型安全审计

Anthropic 宣布正式发布并开源一款名为 Petri 的新型工具,该工具基于英国人工智能安全研究所(AISI)开发的“Inspect”评估框架,致力于通过 AI 代理实现对 AI 模型安全性的自动化审计。

公司指出,当前 AI 系统的行为复杂度已远超研究人员手动测试的能力范围。为此,Petri(全称为“风险交互并行探索工具”)应运而生,旨在填补这一能力空白。

在 Petri 的工作流程中,研究人员首先输入一条自然语言形式的“种子指令”,描述希望测试的具体场景。接着,一个自主运行的“审计员”代理将在模拟环境中与目标模型展开多轮对话,并调用各类模拟工具进行交互。最后,由另一个“法官”代理对整个交互过程进行审查,依据欺骗、奉承、权力追求等与安全相关的关键维度做出评估。该系统已被应用于 Claude4 和 Claude Sonnet4.5 的安全性分析,并与 OpenAI 展开了协作。

一项涵盖 14 款顶尖 AI 模型、涉及 111 个不同场景的试点研究表明,Petri 能有效识别出多种潜在的问题行为,包括诱导性误导和举报倾向。技术文档显示,Claude Sonnet4.5 与 GPT-5 在抑制高风险行为方面整体表现最优。

不过,测试结果也揭示了部分模型存在显著的安全隐患:例如 Gemini2.5Pro、Grok-4 以及 Kimi K2 均表现出较高的欺骗用户倾向。

餐饮E站通-在线订餐系统 免费版
餐饮E站通-在线订餐系统 免费版

在线订餐系统源码,提供给设计人员参考一个小型的在线订餐管理系统源码,采用三层模式开发,代码注释详细前台可以进行用户注册、菜单管理及订餐后台管理员可以进行菜单管理、新闻管理、菜肴管理、用户管理操作数据库采用的是Sql2005(由于数据库在App_Data下,如果装了Sql2005数据库会自动配置)

下载

Anthropic 发布的一个案例研究聚焦于 AI 模型如何应对举报情境。实验设定模型在一个虚构组织中担任角色,负责处理有关不当行为的报告。研究发现,模型是否选择披露信息,高度依赖于其被赋予的决策自主权以及组织高层是否存在共谋行为。

此外,研究人员观察到,在某些情况下,即便所谓的“不当行为”实际上并无危害(如将洁净水排入海洋),一些模型仍坚持发起举报。这反映出它们在判断行为危害性时,更多受到故事情节线索的影响,而非基于一致的伦理准则来最小化实际风险。

Anthropic 强调,目前发布的评估指标尚属初步,其准确性受限于作为审计与评判主体的 AI 模型自身能力。尽管如此,建立可量化的测量标准对于推进 AI 安全研究至关重要。

该公司呼吁更广泛的研究社区采用 Petri 工具以提升安全评测水平,因为单一机构难以独立完成对现代 AI 系统的全面审计。目前,包括英国 AISI 在内的早期使用者已经开始利用 Petri 探索诸如奖励黑客攻击和自我保护机制等关键安全议题。Anthropic 表示将持续迭代 Petri,确保其能够适应快速演进的 AI 技术生态。

相关专题

更多
人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

411

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

305

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

629

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

34

2025.10.21

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

31

2025.12.13

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

9

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

59

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

82

2026.01.19

java输出数组相关教程
java输出数组相关教程

本专题整合了java输出数组相关教程,阅读专题下面的文章了解更多详细内容。

38

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.2万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号