CREATOR制造、使用工具，实现LLM「自我进化」

PHPz

发布时间：2023-06-12 23:34:44

1687人浏览过

来源于51CTO.COM

转载

自古以来，工具的使用被视为区分人与其他物种的一大区别，也被视为是智能的一种根本体现。而当下，人工智能已不再局限于对工具的简单使用，它们已然能够根据问题创造性地建立自己的工具来寻求解决方案。在思维上，这代表着当下大模型已经能够掌握更高层次的抽象思维认知，并将其与具象思维划分，共同解决问题；而在能力上，工具创造的出现也意味着模型已经能够从 “学习” 中蜕变，去运用已知 “创造” 未来的无限可能。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/pdf/2305.14318.pdf

研究背景

近年来，大规模语言模型（Large Language Models）取得了显著的研究进展，包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近发布的 GPT-4 等。这些模型在上下文学习（In-Context Learning）、代码生成（Code Generation）和各种其他自然语言处理任务方面表现出色，将模型的潜力进一步推向了通用人工智能。

尽管大模型在这些取得了巨大的成功，其当下仍然存在很多短板，包括无法识别或回答最新的实时信息、很难在大规模的数据计算上达到高准确性，在题干逻辑复杂时推理能力不稳定等等。针对这些短板，研究者开始致力于向当前模型架构中引入对外部资源的利用能力，例如引入计算器，问答系统，维基百科等等外部知识源，来增强模型能力。这一系列研究奠定了模型工具学习（Tool Learning）能力的基础。

然而，当下研究中利用的外部工具数量仍然有限，而在潜在的新任务类型几乎是无尽的。因此，在面对新的问题类型时，很难找到现有的适合解决问题的工具。此外，即使提供了有效的可利用的工具，模型需要在工具包文档中进行海量搜索、匹配并针对问题进行针对性地规划。这将给模型带来很大的认知负担，并需要较高的学习成本。

因此，研究团队提出了全新的一种研究范式：工具创造（Tool Creation）。其不再是简单利用大模型使用工具的能力，而是加入了全新的工具创造模块，让模型针对所面对的问题进行工具创造并寻求解决方案。

利用大模型创造工具能够提高工具的普适性、可复用性和多样性，超越给定 API 的限制。工具创造模块的设计还可以减轻大模型的认知负担，并解耦其进行抽象推理（创建可推广的具有普适性的工具）和具象推理（根据工具实现细节和工具使用文档进行决策）的能力。同时，该框架下模型以代码作为工具创造的媒介，这使得模型对于错误更加敏感，并能根据工具创造与使用中的问题进行回溯与修正。

CREATOR制造、使用工具，实现LLM「自我进化」

工具创造范式相比工具使用更加灵活并对不同场景有更强的适应能力

CREATOR 研究框架

大模型进行工具创造来解决问题的框架 CREATOR 主要分为了以下四个阶段：

创造（Creation）：运用大模型对于问题的抽象推理能力，通过代码有针对性性地创造所需工具以及其使用说明。
决策（Decision）：运用大模型对于问题的具象推理能力，决策如何调用工具来解决当前问题。
执行（Execution）：根据创造的工具以及决策内容，进行决策的执行，并捕获执行过程中的输出信息。
修正（Rectification）：运用大模型对于错因推理以及自我修复的能力，对执行阶段捕捉到的问题进行修复。

CREATOR制造、使用工具，实现LLM「自我进化」

大模型进行工具创造与决策的流程框架

大模型首先将根据问题创造所需要的工具以及其相关使用说明；此后，问题内容以及工具信息将同时再次返回给大模型，用以决策针对本问题的解决方案，以及如何使用这些工具。此后，模型将根据执行情况对工具及决策做出调整，以更好地适应问题并寻求解答。

整个工具创造框架灵活运用了大模型的不同思维能力：提取问题关键信息的抽象思维推理，根据任务实施方案决策的具象思维推理，以及根据问题寻求解决方案的自我修复推理。这些能力的解耦帮助大模型避免了在普通推理链（Chain-of-Thought, CoT）中的思维混乱而导致的失败现象，有效提升了大模型对于任务的适应能力及表现。

CREATOR 实验评测

作者将 CREATOR 框架与当前的普通推理链方法（CoT），程序推理链方法（Program-of-Thought, PoT）以及没有创造的简单工具使用（Tool Use）进行了比对。同时，为了验证框架中剥离抽象推理与具象推理的有效性，作者还额外引入了整体工具创造（Tool Create - whole）作为基线，该方法将 CREATOR 框架中的创造阶段与决策阶段合二为一，不再进行推理能力上的解耦。

CREATOR制造、使用工具，实现LLM「自我进化」

Creation Challenge 数据集问题，标准工具及决策示例

CREATOR制造、使用工具，实现LLM「自我进化」

在 MATH 数据集上 CREATOR 框架的表现高于其他推理方法以及简单的工具运用

在数据集的选取上，作者选择了 MATH 以及 TabMWP 数据集作为主要验证。其中前者包含了美国数学竞赛当中的高难度数学问题，而后者将问题与丰富的数据表结合，二者都考验了模型对于多样化场景的问题推理与解决能力。除此之外，作者还额外引入了全新构建的 Creation Challenge 数据集，其中的问题都无法直接套用现有工具或者代码包解决，从而考验了模型进行工具创造的能力。

CREATOR制造、使用工具，实现LLM「自我进化」

在 TabMWP 数据集以及 Creation Challenge 上 CREATOR 框架效果也显著更强

从实验结果看来，CREATOR 框架的推理结果要明显好于所有基线，尤其相对于标准的推理方法以及程序推理方法，均达到了更好的效果。同时实验也证明了对抽象与具象推理能力进行解耦也可以有效帮助模型提高准确率。在 Creation Challenge 测试集上，作者还额外验证了在有创造什么样的工具的提示（hint）的情况下，模型将会对问题有着更强的解决能力。因此，提示与思维解耦这两点也成为了工具创造中的重要影响因素。

CREATOR制造、使用工具，实现LLM「自我进化」

不同方法针对任务难度的准确率统计

CREATOR制造、使用工具，实现LLM「自我进化」

在修正阶段的参与下效果的提升

Glimmer Ai

基于GPT-3和DALL·E2的PPT制作工具

下载

除此之外，作者还验证了不同方法对于任务难度的变化曲线，以及修正阶段参与轮次与大模型效果提升之间的联系。结果表明，CREATOR 框架面对有难度的问题能够保持更好的鲁棒性，以及修正阶段的参与能够让不仅是 CREATOR 框架，甚至是 PoT 推理方法都能得到大幅度提升，证实了在实验中引入修正阶段的合理性与有效性。

工具创造的其他优势

在主实验之外，文章作者也着重探讨了工具创造的其他优势以及当下大模型工具创造能力的不同展现形式。既然是创造工具，那么作为工具的一大优势必定是其可复用性。作者也顺此思路进一步展示了工具的复用对于任务效果的提升。

作者设计了 300 条问题并三个一组分为了 100 组。其中每一组的三个问题虽然场景不同，但都涉及相同的核心知识（Core Knowledge），即同类问题。作者验证了将对于一个问题创造的工具用于一组问题中的所有场景，是否都能够有效解决并提升准确率。

CREATOR制造、使用工具，实现LLM「自我进化」

对于大模型创造的工具在其他问题上迁移，能够有效提高准确率

实验统计表明将模型创造的正确可用的工具迁移到其他同类问题场景，能够有效提升问题解决的正确率。这即表明大模型创造的工具具有良好的可复用性，对于同类问题也有着良好的普适性。

除此之外，作者还展示了大模型进行工具创造的三个维度：对已有工具进行封装以实现不同目的，将不同工具进行组合实现目标功能，以及进行层次化的工具创建。这三个维度由低到高展示了当下大模型工具创造的能力，而这些能力也帮助大模型能够更高效地适应不同场景。

CREATOR制造、使用工具，实现LLM「自我进化」

大模型进行工具创造的三个维度

总结

CREATOR 框架通过工具创造实现了大模型抽象与具象思维能力的解耦，是继工具学习之后，对模型能力边际探索的又一大突破。相信未来的更多研究将会以此为基础，继续在工具的使用与创造上不断证明与增强模型潜力，为我们带来更多惊喜。

文章主要作者

CREATOR制造、使用工具，实现LLM「自我进化」

钱成，清华大学大三年级本科生，THUNLP 实验室成员，导师刘知远。目前研究方向包括大模型预训练，大模型高效微调，以及工具学习等领域。曾获清华大学计算机综合优秀奖学金，并以共同一作身份在 EMNLP，ACL 等国际会议中发表论文。

个人主页：https://qiancheng0.github.io/

如何快速生成一份专业的行业趋势报告利用Kimi深度挖掘全网最新动态

如何快速获取全网最新的行业研报利用Kimi结合联网搜索功能一键汇总

如何快速读透行业千页研究报告利用Kimi长文本功能提取核心数据

如何写出具有深度见解的毕业论文综述利用Claude梳理领域研究演进历程

Kimi怎么做竞品分析_Kimi市场报告生成指令【分析】

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4220

2026.01.21

ChatGPT注册

ChatGPT注册方法：1、访问OpenAI的官方网站，进入注册页面；2、完成注册后收到一份邮件，打开后点击验证账号；3、选择一个适合您需求的订阅计划；4、获得访问ChatGPT的权限即可。

559

2023.09.12

国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型，由OpenAI开发。它是GPT的一个变体，专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人，可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题，希望对大家能有所帮助。

616

2023.10.25

手机安装chatgpt的方法

手机安装chatgpt的方法：1、在ChatGTP官网或手机商店上下载ChatGTP软件；2、打开后在设置界面中，选择语言为中文；3、在对局界面中，选择人机对局并设置中文相谱；4、开始后在聊天窗口中输入指令，即可与软件进行交互。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

3043

2024.03.05

chatgpt国内可不可以使用

chatgpt在国内可以使用，但不能注册，港澳也不行，用户想要注册的话，可以使用国外的手机号进行注册，注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

1100

2024.03.05

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2911

2024.08.16

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

热门下载

网站特效

网站源码

网站素材

前端模板