哪个模型擅长调用工具？这个7B模型跻身工具调用综合榜单第一

DDD

发布时间：2024-10-25 19:16:01

1069人浏览过

来源于机器之心

转载

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.co

工具调用是 AI 智能体的关键功能之一，AI 智能体根据场景变化动态地选择和调用合适的工具，从而实现对复杂任务的自动化处理。例如，在智能办公场景中，模型可同时调用文档编辑工具、数据处理工具和通信工具，完成文档撰写、数据统计和信息沟通等多项任务。

业界已发布的工具调用模型，在特定评测基准上有接近甚至超越闭源 SOTA 模型（比如 GPT-4）的表现，但在其他评测基准上下降明显，难以泛化到新工具和新场景。为应对这一挑战，来自 OPPO 研究院和上海交通大学的研究团队提出函数掩码（Function Masking）方法，构建了具备强大泛化能力的轻量化工具调用系列模型：Hammer，并开源了完整的技术栈，旨在帮助开发者构建个性化的终端智能应用。

在工具调用典型评测基准上，包括 Berkeley Function-Calling Leaderboard（BFCL）、API-Bank、Seal-Tools 等，Hammer 系列模型展现了出色的总体性能，特别是 Hammer-7B 模型，综合效果仅次于 GPT-4 等闭源大模型，在工具调用模型中综合排名第一，具备强大的新场景和新工具泛化能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

哪个模型擅长调用工具？这个7b模型跻身工具调用综合榜单第一

模型地址：https://huggingface.co/MadeAgents
论文地址：https://arxiv.org/abs/2410.04587
代码地址：https://github.com/MadeAgents/Hammer

工具调用任务说明

工具调用作为 AI 智能体执行复杂任务所必备的核心能力，要求模型不仅能够识别正确的函数，还要准确填写函数的输入参数；如果给定函数列表无法满足用户的意图，模型也应具备拒绝任务的能力。下图是工具调用模型输入输出的一个样例：

哪个模型擅长调用工具？这个7B模型跻身工具调用综合榜单第一

Hammer 训练方法

研究团队在 Hammer 的训练过程中引入了一项关键技术：函数掩码（Function Masking） 和一个增强数据集：不相关性检测增强数据集（Irrelevance-Augmented Dataset）。

函数掩码旨在减少模型对函数名称和参数名称的依赖，核心是通过哈希化函数名称和参数名称，使模型在执行工具调用任务时不得不依赖更完备且可靠的功能描述信息，而不是对名称的记忆或匹配。这种方式有助于减少因命名差异导致的误判问题，提升模型在多样化命名风格和应用场景中的稳定性和适应性。
不相关性检测增强数据集旨在帮助模型在给定用户意图而当前无适用函数的情况下，能够正确判断并给出「不相关」信号。该数据集包含了 7,500 个增强样本，设计时平衡了工具调用任务和不相关性检测任务的比例，以达到最佳的综合效果。（已开源至：https://huggingface.co/datasets/MadeAgents/xlam-irrelevance-7.5k）

Hammer 总体表现

Hammer 系列模型在工具调用典型评测基准上均展现了出色的性能，具体表现如下面的两张表格所示。可以看到，在 BFCL 榜单上，Hammer-7B 模型的总体准确率达到 83.92%，接近闭源 SOTA 模型 GPT-4 的 95.79%，优于其他工具调用模型。同时，在其他评测基准上，Hammer-7B 模型的平均 F1 达到 76.21%，接近闭源模型 GPT-4 的 78.79%，大幅领先其他工具调用模型。Hammer-7B 能够在参数规模较小的情况下，在不同评测基准上与闭源 SOTA 大模型竞争，充分展示了 Hammer 模型在各种工具调用任务中的准确性和稳定性。

哪个模型擅长调用工具？这个7B模型跻身工具调用综合榜单第一

函数掩码技术的通用性

研究团队还将函数掩码和数据增强技术应用于不同的基础模型，以验证其通用性。实验选择了 Qwen 系列和 Deepseek-Coder 系列模型作为基准，并在相同的训练和测试条件下进行比较。下表中的结果显示，经过函数掩码技术调优后的 Hammer 版本显著提升了基础模型的工具调用准确性，远高于未调优版本，证明了函数掩码和不相关性数据增强对不同模型架构均有显著的优化效果。同时，在使用相同的基座模型和基础数据的情况下，与 xLAM（同样基于 Deepseek 微调而来的工具调用模型）的对比，也体现了函数掩码及不相关性数据增强的作用。

哪个模型擅长调用工具？这个7B模型跻身工具调用综合榜单第一

Magic AI Avatars

神奇的AI头像，获得200多个由AI制作的自定义头像。

下载

不相关性数据增强比例的权衡

在设计不相关性数据增强时，研究团队测试了不同比例的不相关性数据样本对模型表现的影响。下图实验结果表明，合理比例的不相关性增强数据（约占总数据的 10%）能够在提升工具调用准确性的同时，显著增强模型在不相关检测场景中的识别能力，降低错误调用的风险。实验结果还显示，进一步增加不相关性数据会略微降低功能调用的准确性，因此找到适当的平衡点至关重要。

哪个模型擅长调用工具？这个7B模型跻身工具调用综合榜单第一

总结

Hammer 模型通过函数掩码技术和不相关性检测数据增强，在多个评测基准中取得了良好的效果，表现出强大的泛化能力和稳定性，为轻量化工具调用模型在终端应用向前迈了一步。

Hammer 系列目前已更新至 2.0 版本，欢迎感兴趣的读者通过 huggingface 进行体验！

贾跃亭：法拉第未来当前股价被严重低估目标价5美元

内存飙升成本暴涨汽车会涨价还是减配？

10家中国车企入围入围财富世界500强比亚迪进前百

关税压力下创纪录！韩国汽车年出口额达720亿美元

韩国2025年电动车销量首破20万辆中国产汽车大卖

相关专题

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

443

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

605

2023.08.10

function是什么

function是函数的意思，是一段具有特定功能的可重复使用的代码块，是程序的基本组成单元之一，可以接受输入参数，执行特定的操作，并返回结果。本专题为大家提供function是什么的相关的文章、下载、课程内容，供大家免费下载体验。

499

2023.08.04

js函数function用法

js函数function用法有：1、声明函数；2、调用函数；3、函数参数；4、函数返回值；5、匿名函数；6、函数作为参数；7、函数作用域；8、递归函数。本专题提供js函数function用法的相关文章内容，大家可以免费阅读。

166

2023.10.07

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4207

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2910

2024.08.16

PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境（CLI）下的开发与应用，内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理，以及与 Linux 定时任务（Cron）的结合使用。通过实战示例，帮助开发者掌握使用 PHP 构建自动化脚本、批处理工具与后台任务程序的能力。

2025.12.13

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板

​哪个模型擅长调用工具？这个7B模型跻身工具调用综合榜单第一

哪个模型擅长调用工具？这个7B模型跻身工具调用综合榜单第一