0

0

上交大发布推理引擎PowerInfer,其token生成速率仅比A100低18%,或将取代4090成为A100的替代品

WBOY

WBOY

发布时间:2024-01-16 21:27:05

|

1303人浏览过

|

来源于机器之心

转载

为了不改变原意而重写内容,需要将语言重写为中文,不需要出现原句

本网站的编辑部

PowerInfer 的出现使得在消费级硬件上运行 AI 变得更加高效


上海交大团队,刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%


项目地址:https://github.com/SJTU-IPADS/PowerInfer

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%


论文地址:https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf

速度有多快?

在运行 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上,PowerInfer 对比 llama.cpp 实现了 11 倍加速!

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%


PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了 RTX 4090 上的 VRAM。

在单个 NVIDIA RTX 4090 GPU 上的各种 LLM 中,PowerInfer 的平均 token 生成率为 13.20 个 token / 秒,峰值为 29.08 个 token / 秒,仅比顶级服务器级 A100 GPU 低 18%。

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%

知料万语
知料万语

知料万语—AI论文写作,AI论文助手

下载

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%



具体来说,PowerInfer 是一个用于本地部署 LLM 的高速推理引擎。它利用 LLM 推理中的高局部性来设计 GPU-CPU 混合推理引擎。其中热激活(hot-activated)神经元被预加载到 GPU 上以便快速访问,而冷激活(cold-activated)神经元(大部分)则在 CPU 上计算。这种方法显著减少了 GPU 内存需求和 CPU-GPU 数据传输。


PowerInfer 可以在配备单个消费级 GPU 的个人计算机 (PC) 上高速运行大型语言模型 (LLM) 。现在用户可以将 PowerInfer 与 Llama 2 和 Faclon 40B 结合使用,即将支持 Mistral-7B。

PowerInfer 设计的关键是利用 LLM 推理中固有的高度局部性,其特征是神经元激活中的幂律分布。

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%


下图 7 展示了 PowerInfer 的架构概述,包括离线和在线组件。

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%


这种分布表明,一小部分神经元(称为热神经元)跨输入一致激活,而大多数冷神经元则根据特定输入而变化。PowerInfer 利用这种机制设计了 GPU-CPU 混合推理引擎。

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%


PowerInfer 进一步集成了自适应预测器和神经元感知稀疏算子,优化了神经元激活和计算稀疏性的效率。

看到这项研究后,网友激动的表示:单卡 4090 跑 175B 大模型不再是梦。

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%


了解更多内容,请查看原论文。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6108

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

814

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1064

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1286

2024.03.01

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

236

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2033

2024.08.16

C++ 高级模板编程与元编程
C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术,涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例,帮助开发者掌握 如何利用 C++ 模板机制编写高效、可扩展的通用代码,并提升代码的灵活性与性能。

9

2026.01.23

php远程文件教程合集
php远程文件教程合集

本专题整合了php远程文件相关教程,阅读专题下面的文章了解更多详细内容。

25

2026.01.22

PHP后端开发相关内容汇总
PHP后端开发相关内容汇总

本专题整合了PHP后端开发相关内容,阅读专题下面的文章了解更多详细内容。

18

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号