讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

微软6页论文爆火：三进制LLM，真香！

WBOY

发布时间：2024-02-29 22:01:02

|

540人浏览过

|

来源于51CTO.COM

转载

这就是由微软和中国中科院大学在最新一项研究中所提出的结论——

所有的LLM，都将是1.58 bit的。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

微软6页论文爆火：三进制LLM，真香！

具体而言，这项研究提出的方法叫做BitNet b1.58，可以说是从大语言模型“根儿”上的参数下手。

将传统以16位浮点数（如FP16或BF16）形式的存储，统统变成了三进制，也就是 {-1, 0, 1}。

微软6页论文爆火：三进制LLM，真香！

需要注意的是，“1.58 bit”并非表示每个参数占用1.58字节的存储空间，而是指每个参数可以用1.58位的信息来编码。

在如此转换之后，矩阵中的计算就只会涉及到整数的加法，因此会让大模型在保持一定精度的同时，显著减少所需的存储空间和计算资源。

例如BitNet b1.58在3B模型大小时与Llama做比较，速度提高了2.71倍的同时，GPU内存使用几乎仅是原先的四分之一。

而且当模型的规模越大时（例如70B），速度上的提升和内存上的节省就会更加显著！

这种颠覆传统的思路着实是让网友们眼前一亮，论文在X上也是受到了高度的关注：

微软6页论文爆火：三进制LLM，真香！

网友们惊叹“改变游戏规则”的同时，还玩起了谷歌attention论文的老梗：

1 bit is all YOU need.

微软6页论文爆火：三进制LLM，真香！

那么BitNet b1.58具体又是如何实现的？我们继续往下看。

把参数都变成三进制

这项研究实则是原班人马在此前发表的一篇论文基础之上做的优化，即在原始BitNet的基础上增加了一个额外的0值。

微软6页论文爆火：三进制LLM，真香！

整体来看，BitNet b1.58依旧是基于BitNet架构（一种Transformer），用BitLinear替换了nn.Linear。

至于细节上的优化，首先就是我们刚才提到的“加个0”，即权重量化（weight quantization）。

BitNet b1.58模型的权重被量化为三元值{-1, 0, 1}，这相当于在二进制系统中使用了1.58 bit来表示每个权重。这种量化方法减少了模型的内存占用，并简化了计算过程。

微软6页论文爆火：三进制LLM，真香！

其次，在量化函数设计方面，为了将权重限制在-1、0或+1之间，研究者们采用了一种称为absmean的量化函数。

微软6页论文爆火：三进制LLM，真香！

这个函数先会根据权重矩阵的平均绝对值进行缩放，然后将每个值四舍五入到最接近的整数（-1, 0, +1）。

接下来就到了激活量化（activation quantization）这一步。

激活值的量化与BitNet中的实现相同，但在非线性函数之前不将激活值缩放到[0, Qb]的范围内。相反，激活值被缩放到[−Qb, Qb]的范围，以此来消除零点量化。

值得一提的是，研究团队为了BitNet b1.58与开源社区兼容，采用了LLaMA模型的组件，如RMSNorm、SwiGLU等，使得它可以轻松集成到主流开源软件中。

最后，在实验的性能比较上，团队将BitNet b1.58与FP16 LLaMA LLM在不同大小的模型上进行了比较。

微软6页论文爆火：三进制LLM，真香！

结果显示，BitNet b1.58在3B模型大小时开始与全精度LLaMA LLM在困惑度上匹配，同时在延迟、内存使用和吞吐量方面有显著提升。

而且当模型规模越大时，这种性能上提升就会越发显著。

网友：能在消费级GPU跑120B大模型了

正如上文所言，这篇研究独特的方法在网上引发了不小的热议。

DeepLearning.scala作者杨博表示：

BitNet b1.58相比原版BitNet，最大的特点就是允许0参数。我觉得稍微修改一下量化函数，也许可以控制0参数的比例。当0参数的比例很大时，可以用稀疏格式存储权重，使得平均每个参数的显存占用甚至低于1比特。这就相当于权重级别的MoE了。我觉得比一般的MoE更优雅。

与此同时，他也提出了关于BitNet的缺点：

BitNet最大的缺点在于虽然能减少推理时的显存开销，但优化器状态和梯度仍然要用浮点数，训练仍然很费显存。我觉得如果能把BitNet和训练时节省显存的技术结合起来，那么相比传统半精度网络，同等算力和显存下支持更多参数，优势就很大了。

目前能节省优化器状态的显存开销的办法是offloading。能节省梯度的显存占用的办法可能是ReLoRA。但是ReLoRA的论文实验只用了十亿参数的模型，并没有证据表明能不能推广到百亿、千亿参数的模型。

△图源：知乎，经授权引用

不过也有网友分析认为：

若论文成立，那么我们就能在24GB消费级GPU上跑120B的大模型了。

微软6页论文爆火：三进制LLM，真香！

那么你觉得这种新方法如何呢？

相关文章

AI自动生成图表工具，数据可视化从未如此简单

AI绘画中的负面提示词(Negative Prompt)怎么写？

怎样用AI写广告语_品牌标语生成提示词技巧【广告】

如何用AI进行数据清洗和预处理？自动化繁琐任务指南

如何用AI进行情感分析？快速了解用户评论与市场反馈

相关标签:

ai 内存占用 scala 架构 transformer 开源软件 llama scala

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：了解一下CPU 、TPU、GPU、DPU、QPU 下一篇：当AI遇到ERP会发生哪些"化学反应"

作者最新文章

玩转夸克浏览器的AI搜索模式_夸克AI搜索新手入门操作指南

2025-10-20 09:50

夸克浏览器AI搜索最新版教学_探索夸克AI搜索的隐藏功能

2025-10-24 20:48

夸克浏览器怎么用AI搜索_夸克AI搜索正确提问方式教学

2025-10-25 23:12

微信朋友圈怎么设置定时发布微信朋友圈定时发送图文教程

2026-01-02 09:14

微信朋友圈怎么定时发送微信朋友圈定时发布设置方法【教程】

2026-01-06 09:59

苹果手机怎么定时发朋友圈 iPhone微信朋友圈自动发布方法【步骤】

2026-01-08 11:11

微信朋友圈能定时发送吗微信朋友圈定时发送功能开启方法

2026-01-09 08:15

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PC软件

相关专题

更多

C++ 高级模板编程与元编程

C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术，涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例，帮助开发者掌握如何利用 C++ 模板机制编写高效、可扩展的通用代码，并提升代码的灵活性与性能。

10

2026.01.23

php远程文件教程合集

php远程文件教程合集

本专题整合了php远程文件相关教程，阅读专题下面的文章了解更多详细内容。

29

2026.01.22

PHP后端开发相关内容汇总

PHP后端开发相关内容汇总

本专题整合了PHP后端开发相关内容，阅读专题下面的文章了解更多详细内容。

21

2026.01.22

php会话教程合集

php会话教程合集

本专题整合了php会话教程相关合集，阅读专题下面的文章了解更多详细内容。

21

2026.01.22

宝塔PHP8.4相关教程汇总

宝塔PHP8.4相关教程汇总

本专题整合了宝塔PHP8.4相关教程，阅读专题下面的文章了解更多详细内容。

13

2026.01.22

PHP特殊符号教程合集

PHP特殊符号教程合集

本专题整合了PHP特殊符号相关处理方法，阅读专题下面的文章了解更多详细内容。

11

2026.01.22

PHP探针相关教程合集

PHP探针相关教程合集

本专题整合了PHP探针相关教程，阅读专题下面的文章了解更多详细内容。

8

2026.01.22

菜鸟裹裹入口以及教程汇总

菜鸟裹裹入口以及教程汇总

本专题整合了菜鸟裹裹入口地址及教程分享，阅读专题下面的文章了解更多详细内容。

55

2026.01.22

Golang 性能分析与pprof调优实战

Golang 性能分析与pprof调优实战

本专题系统讲解 Golang 应用的性能分析与调优方法，重点覆盖 pprof 的使用方式，包括 CPU、内存、阻塞与 goroutine 分析，火焰图解读，常见性能瓶颈定位思路，以及在真实项目中进行针对性优化的实践技巧。通过案例讲解，帮助开发者掌握用数据驱动的方式持续提升 Go 程序性能与稳定性。

9

2026.01.22

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

10分钟--Midjourney创作自己的漫画

10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合

Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程

AI绘画教程

共2课时 | 0.2万人学习

最新文章

更多

Qwen3-TTS— 阿里通义开源的系列语音生成模型

AI一键生成PPT动画效果，让你的演示文稿动起来

Monica AI 如何开启网页全文翻译？双语对照显示与专业词典【插件】

Claude 3比GPT-4强在哪？最全对比和使用场景分析

ChatGPT网页端入口在哪 ChatGPT官方访问地址汇总

ChatGPT API如何实现流式输出截断重连_在前端逻辑中添加状态监听与Buffer拼接

AI朋友圈文案生成器，一键解决你的社交文案荒

全国乘用车库存2025年末达365万辆库存天数增至66天

AI简历怎么写？教你用AI优化简历，提高面试率

Kimi 如何解析知网 CAJ 文献？学术文档转 PDF 后处理方法【心得】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部