☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

近日,Anthropic 正式发布了名为“思维追踪”(Circuit Tracer)的开源工具,旨在通过图形化手段揭示大语言模型(LLM)内部的决策逻辑,从而增强 AI 系统的可解释性与安全性。
该工具的核心机制是构建“归因图”(Attribution Graph),将模型内部的特征激活及其因果联系以可视化形式呈现。借助这一方式,研究人员可以更清晰地观察模型如何解析输入信息并逐步生成最终输出。

Circuit Tracer 不仅支持用户自定义生成归因图,还配备了交互式前端界面,允许对图表进行标注、保存和共享。同时,用户可通过调节特定特征的数值,实时查看模型响应的变化,从而辅助验证关于模型内部机制的假设,提升研究效率。
目前,该工具已作为开源项目上线 GitHub,并集成于由 Decode Research 维护的 Neuronpedia 平台,支持在线交互式探索。Anthropic 指出,当前对 AI 模型内部结构的认知仍显著滞后于其应用能力的发展,开放此类工具有助于推动更广泛的学术协作,促进对语言模型内在机理的深入理解,并为后续优化提供基础。
不过,Circuit Tracer 仍存在一定局限。例如,其无法完整揭示注意力机制的计算过程,在模拟神经元激活状态时可能存在偏差。此外,部分特征的高阶抽象性也可能增加解读模型真实运作路径的难度。










