0

0

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

PHPz

PHPz

发布时间:2024-07-24 21:10:10

|

682人浏览过

|

来源于机器之心

转载

清华领衔发布多模态评估multitrust:gpt-4可信度有几何?

aixiv专栏是本站发布学术、技术内容的栏目。过去数年,本站aixiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本工作由清华大学朱军教授领衔的基础理论创新团队发起。长期以来,团队着眼于目前人工智能发展的瓶颈问题,探索原创性人工智能理论和关键技术,在智能算法的对抗安全理论和方法研究中处于国际领先水平,深入研究深度学习的对抗鲁棒性和数据利用效率等基础共性问题。相关工作获吴文俊人工智能自然科学一等奖,发表ccf a类论文100余篇,研制开源的ares对抗攻防算法平台(https://github.com/thu-ml/ares),并实现部分专利产学研转化落地应用。

以gpt-4o为代表的多模态大语言模型(mllms)因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手,还逐渐渗透到自动驾驶、医学诊断等各大应用领域,掀起了一场技术革命。
 
然而,多模态大模型是否安全可靠呢?

清华领衔发布多模态评估multitrust:gpt-4可信度有几何?

                                    图1 对抗攻击GPT-4o示例

如图1所示,通过对抗攻击修改图像像素,GPT-4o将新加坡的鱼尾狮雕像,错误识别为巴黎的埃菲尔铁塔或是伦敦的大本钟。这样的错误目标内容可以随意定制,甚至超出模型应用的安全界限。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?                              图2 Claude3越狱示例

而在越狱攻击场景下,虽然Claude成功拒绝了文本形式下的恶意请求,但当用户额外输入一张纯色无关图片时,模型按照用户要求输出了虚假新闻。这意味着多模态大模型相比大语言模型,有着更多的风险挑战。

除了这两个例子以外,多模态大模型还存在幻觉、偏见、隐私泄漏等各类安全威胁或社会风险,会严重影响它们在实际应用中的可靠性和可信性。这些漏洞问题到底是偶然发生,还是普遍存在?不同多模态大模型的可信性又有何区别,来源何处?

近日,来自清华、北航、上交和瑞莱智慧的研究人员联合撰写百页长文,发布名为MultiTrust的综合基准,首次从多个维度和视角全面评估了主流多模态大模型的可信度,展示了其中多个潜在安全风险,启发多模态大模型的下一步发展。
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
  • 论文标题:Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study
  • 论文链接:https://arxiv.org/pdf/2406.07057
  • 项目主页:https://multi-trust.github.io/
  • 代码仓库:https://github.com/thu-ml/MMTrustEval

MultiTrust基准框架

从已有的大模型评估工作中,MultiTrust提炼出了五个可信评价维度——事实性(Truthfulness)、安全性(Safety)、鲁棒性(Robustness)、公平性(Fairness)、隐私保护(Privacy),并进行二级分类,有针对性地构建了任务、指标、数据集来提供全面的评估。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

                                     图4 MultiTrust框架图

围绕10个可信评价子维度,MultiTrust构建了32个多样的任务场景,覆盖了判别和生成任务,跨越了纯文本任务和多模态任务。任务对应的数据集不仅基于公开的文本或图像数据集进行改造和适配,还通过人工收集或算法合成构造了部分更为复杂和具有挑战性的数据。
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
                                    图5 MultiTrust任务列表 

与大语言模型(LLMs)的可信评价不同,MLLM的多模态特征带来了更多样、更复杂的风险场景和可能。为了更好地进行系统性评估,MultiTrust基准不仅从传统的行为评价维度出发,更创新地引入了多模态风险和跨模态影响这两个评价视角,全面覆盖新模态带来的新问题新挑战。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

Hotpot AI Background Remover
Hotpot AI Background Remover

Hotpot.ai推出的图片背景移除工具

下载
                                   图6 多模态风险和跨模态影响的风险示意

具体地,多模态风险指的是多模态场景中带来的新风险,例如模型在处理视觉误导信息时可能出现的错误回答,以及在涉及安全问题的多模态推理中出现误判。尽管模型可以正确识别图中的酒水,但在进一步的推理中,部分模型并不能意识到其与头孢药物共用的潜在风险。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

                                   图7 模型在涉及安全问题的推理中出现误判

跨模态影响则指新模态的加入对原有模态可信度的影响,例如无关图像的输入可能会改变大语言模型骨干网络在纯文本场景中的可信行为,导致更多不可预测的安全风险。在大语言模型可信性评估常用的越狱攻击和上下文隐私泄漏任务中,如果提供给模型一张与文本无关的图片,原本的安全行为就可能被破坏(如图2)。
 
结果分析和关键结论
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
                               图8 实时更新的可信度榜单(部分)

研究人员维护了一个定期更新的多模态大模型可信度榜单,已经加入了GPT-4o、Claude3.5等最新的模型,整体来看,闭源商用模型相比主流开源模型更为安全可靠。其中,OpenAI的GPT-4和Anthropic的Claude的可信性排名最靠前,而加入安全对齐的Microsoft Phi-3则在开源模型中排名最高,但仍与闭源模型有一定的差距。

GPT-4、Claude、Gemini等商用模型针对安全可信已经做过许多加固技术,但仍然存在部分安全可信风险。例如,他们仍然对对抗攻击、多模态越狱攻击等展现出了脆弱性,极大地干扰了用户的使用体验和信任程度。
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
                                                             图9 Gemini在多模态越狱攻击下输出风险内容

尽管许多开源模型在主流通用榜单上的分数已经与GPT-4相当甚至更优,但在可信层面的测试中,这些模型还是展现出了不同方面的弱点和漏洞。例如在训练阶段对通用能力(如OCR)的重视,使得将越狱文本、敏感信息嵌入图像输入成为更具威胁的风险来源。
 
基于跨模态影响的实验结果,作者发现多模态训练和推理会削弱大语言模型的安全对齐机制。许多多模态大模型会采用对齐过的大语言模型作为骨干网络,并在多模态训练过程中进行微调。结果表明,这些模型依然展现出较大的安全漏洞和可信风险。同时,在多个纯文本的可信评估任务上,在推理时引入图像也会对模型的可信行为带去影响和干扰。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

                                 图10 引入图像后,模型更倾向于泄漏文本中的隐私内容

实验结果表明,多模态大模型的可信性与其通用能力存在一定的相关性,但在不同的可信评估维度上模型表现也依然存在差异。当前常见的多模态大模型相关算法,如GPT-4V辅助生成的微调数据集、针对幻觉的RLHF等,尚不足以全面增强模型的可信性。而现有的结论也表明,多模态大模型有着区别于大语言模型的独特挑战,需要创新高效的算法来进行进一步改进。

详细结果和分析参见论文。
 
未来方向

研究结果表明提升多模态大模型的可信度需要研究人员的特别注意。通过借鉴大语言模型对齐的方案,多元化的训练数据和场景,以及检索增强生成(RAG)和宪法AI(Constitutional AI)等范式可以一定程度上帮助改进。但多模态大模型的可信提升绝不止于此,模态间对齐、视觉编码器的鲁棒性等也是关键影响因素。此外,通过在动态环境中持续评估和优化,增强模型在实际应用中的表现,也是未来的重要方向。
 
伴随MultiTrust基准的发布,研究团队还公开了多模态大模型可信评价工具包MMTrustEval,其模型集成和评估模块化的特点为多模态大模型的可信度研究提供了重要工具。基于这一工作和工具包,团队组织了多模态大模型安全相关的数据和算法竞赛[1,2],推进大模型的可信研究。未来,随着技术的不断进步,多模态大模型将在更多领域展现其潜力,但其可信性的问题仍需持续关注和深入研究。

参考链接:
[1] CCDM2024多模态大语言模型红队安全挑战赛 http://116.112.3.114:8081/sfds-v1-html/main
[2] 第三届琶洲算法大赛--多模态大模型算法安全加固技术 https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

3345

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

485

2023.08.14

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

483

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

448

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

3198

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2770

2024.08.16

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2770

2024.08.16

vsd文件打开方法
vsd文件打开方法

vsd文件打开方法有使用Microsoft Visio软件、使用Microsoft Visio查看器、转换为其他格式等。想了解更多vsd文件相关内容,可以阅读本专题下面的文章。

509

2023.10.30

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

48

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Node.js 教程
Node.js 教程

共57课时 | 12.5万人学习

CSS3 教程
CSS3 教程

共18课时 | 6.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号