不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

PHPz

发布时间：2023-09-19 13:05:01

967人浏览过

来源于51CTO.COM

转载

开源社区的一位开发者Georgi Gerganov发现，自己可以在M2 Ultra上运行全F16精度的34B Code Llama模型，而且推理速度超过了20 token/s。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

M2 Ultra的带宽达到了800GB/s，这在其他人通常需要使用4个高端GPU才能实现的情况下

而这背后真正的答案是：投机采样（Speculative Sampling）。

乔治的发现立刻引发了人工智能界大佬们的讨论

Karpathy转发评论道，「LLM的投机执行是一种出色的推理时间优化」。

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

「投机采样」加速推理

在这个例子中，Georgi借助Q4 7B quantum草稿模型（也就是Code Llama 7B）进行了投机解码，然后在M2 Ultra上使用Code Llama34B进行生成。

简单讲，就是用一个「小模型」做草稿，然后用「大模型」来检查修正，以此加速整个过程。

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

github地址：https://twitter.com/ggerganov/status/1697262700165013689

根据Georgi的介绍，这些模型的速度分别如下：

F16 34B：每秒约10个令牌

需要进行改写的内容是：Q4 7B：每秒约80个令牌

以下是一个没有使用投机采样的标准F16采样示例：

在加入投机采样策略之后，速度可以达到每秒约20个标记

根据Georgi的说法，生成内容的速度可能会有所不同。然而，这种方法在代码生成方面似乎非常有效，因为大多数词库都能被草稿模型正确猜测

使用「语法采样」的用例也有可能从中受益匪浅

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

投机采样是如何实现快速推理的？

Karpathy根据此前谷歌大脑、UC伯克利、DeepMind的三项研究，做出了解释。

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

请点击以下链接查看论文：https://arxiv.org/pdf/2211.17192.pdf

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

论文地址：https://arxiv.org/pdf/1811.03115.pdf

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

论文地址：https://arxiv.org/pdf/2302.01318.pdf

Giiso写作机器人

Giiso写作机器人，让写作更简单

下载

这取决于以下不直观的观察结果：

在单个输入token上转发LLM所需的时间，与在K个输入token上批量转发LLM所需的时间相同（K比你想象的要大）。

这个不直观的事实是因为采样受到内存的严重限制，大部分「工作」不计算，而是将Transformer的权重从VRAM读取到芯片上缓存中进行处理。

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

为了完成读取所有权重的任务，最好将它们应用于整个批量的输入向量

我们之所以不能天真地利用这一事实，来一次采样K个token，是因为每N个token都取决于，我们在第N-1步时采样的token。这是一种串行依赖关系，因此基线实现只是从左到右逐个进行。

现在，一个巧妙的想法是使用一个小而廉价的草稿模型，首先生成一个由K个标记组成的候选序列——「草稿」。然后，我们将所有这些信息一起批量送入大模型

根据上述方法，这与只输入一个token的速度几乎一样快。

然后，我们从左到右检查模型，以及样本token预测的logits。任何与草稿一致的样本都允许我们立即跳转到下一个token。

如果存在分歧，我们将放弃草稿模型，并承担进行一些一次性工作的成本（对草稿模型进行采样，并对后续的标记进行前向传递）

这在实践中行之有效的原因是，大多数情况下，draft token都会被接受，因为是简单的token，所以即使是更小的草稿模型也能接受它们。

当这些简单的token被接受时，我们就会跳过这些部分。大模型不同意的困难token会「回落」到原始速度，但实际上因为有额外的工作会慢一些。

所以，总而言之：这一怪招之所以管用，是因为LLM在推理时是受内存限制。在「批大小为1」的情况下，对感兴趣的单个序列进行采样，而大部分「本地 LLM」用例都属于这种情况。而且，大多数token都很「简单」。

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

HuggingFace的联合创始人表示，340亿参数的模型在一年半以前的数据中心之外，看起来非常庞大和难以管理。现在只需使用笔记本电脑就可以轻松处理了

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

现在的LLM并不是单点突破，而是需要多个重要组件有效协同工作的系统。投机解码就是一个很好的例子，可以帮助我们从系统的角度进行思考。

不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手

Perplexity免费版和Pro版区别_Perplexity付费订阅价值分析教程【对比】

OpenClaw启动时卡在加载界面怎么办_OpenClaw加载卡死常见原因与对策【教程】

OpenClaw最新版与旧版有什么区别_OpenClaw主要版本功能差异对比【汇总】

Perplexity Chrome插件怎么用_Perplexity浏览器扩展一键搜索教程【指南】

WorkBuddy技能包有哪些类型_常见Skills技能包分类与用途介绍

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6656

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

844

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2209

2024.03.01

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4378

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2927

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

234

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板