0

0

LLaMA模型惨遭泄漏,Meta版ChatGPT被迫「开源」!GitHub斩获8k星,评测大量出炉

WBOY

WBOY

发布时间:2023-04-12 17:49:03

|

1875人浏览过

|

来源于51CTO.COM

转载

ChatGPT角逐之战愈演愈烈。

前几周,Meta发布了自家的大型语言模型LLaMA,参数量从70亿到650亿不等。

论文中,仅用1/10参数的LLaMA(130亿)在大多数基准测试下超越了GPT-3。

对于650亿参数的LLaMA,则与DeepMind的Chinchilla(700亿参数)和谷歌的PaLM(5400亿参数)旗鼓相当。

虽然Meta声称LLaMA是开源的,但还需要研究人员申请并进行审核。

然而万万没想到的是,刚发布没几天,LLaMA的模型文件就提前泄露了。

那么,问题来了,这究竟是故意的还是不小心的

LLaMA惨遭「开源」?

近日,国外论坛4chan上泄露了LLaMA的成品库。

图片

上周四,用户llamanon在4chan的技术板上发帖,通过种子文件(torrent)发布7B和65B的LLaMA模型。

图片

这个种子链接目前被合并到了LLaMA的GitHub页面。

他还向项目提交了第二个拉请求,该请求提供了一个种子链接,链接到模型的另一组权重。 

目前该项目在GitHub已收获8k星。

然而,泄密者最大的错误之一就是在泄密的模型中包含了他们的唯一标识符代码。

这个代码是专门用来追踪泄密者的,使用户llamanon的个人信息处于危险之中。

正所谓,LLaMA开源的不太体面,网友帮它体面了。

此外,4chan上的用户还为那些希望在自己的工作站上部署该模型的人创建了一个方便的资源。

并提供了一个分布教程的指南,说明如何获得模型,并将修改后的权重添加到其中,以便进行更有效的推理。

更重要的是,这个资源甚至提供了一种将LLaMA集成到 在线写作平台KoboldAI的方法。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

Getimg.ai
Getimg.ai

getimg.ai是一套神奇的ai工具。生成大规模的原始图像

下载

对于这件事究竟是Meta有意为之,还是无意泄漏。网友们纷纷发表了自己的看法。

一位网友分析地头头是道,「也许这是Meta故意泄露的,以对抗 OpenAI。」

一些客户认为这是一个更好的模型,它恰好击中了他们以每年25万美元的价格出售访问权的商业计划的核心。访问他们的服务一个月可以购买一台能够运行这种泄露模型的机器。Meta削弱了一个潜在的新贵竞争对手,以保持当前的大型科技卡特尔稳定。也许这有点阴谋论,但我们生活在大科技和大阴谋的时代。

周一,Meta称,尽管LLaMA已经泄露给未经授权的用户,仍将继续向认可的研究人员发布其人工智能工具。

有网友直接称,自己下载了70亿参数的LLaMA,尽管不知道如何运行,万一以后用上就能拿来了。

图片

LLaMA的泄露和开源是一个大事件:

Stable Diffusion开源了。8个月后,我们现在就可以读懂别人的思想,解码他们看到的一切。

随着LLMs的开放,我们将得到一些真正的疯狂的东西。

图片

模型初步评测

LLaMA发布不久后,网友发现这个最小参数的模型也需要近30GB的GPU才能运行。

然而,通过比特和字节库进行浮点优化,他们能够让模型在单个NVIDIA RTX 3060上运行。

此外,GitHub 上的一名研究人员甚至能够在Ryzen 7900X CPU上运行LLM的7B 版本,每秒能推断出几个单词。

那么LLaMA模型究竟怎样?国外小哥便对它进行了评测。

图片


LLaMA在很多测试中表现出色。

在大规模多任务语言理解方面,即使相对较小的13B模型也与GPT-3水平相当,而GPT-3的规模是其13倍。

33B版本远远优于GPT-3, 65B则可与现有最强大的LLM模型--谷歌的540B参数的PaLM竞争。

图片

对于需要应用逻辑或计算进行处理的文本方面,LLaMA表现优秀,在定量推理方面可与PaLM相较,甚至比后者的代码生成能力更好。

图片

鉴于这些结果,LLaMA似乎是目前最先进的模型之一,而且,它足够小,不需要多少资源就能运行。这使得LLaMA对于人们来说充满诱惑,想让人和它玩玩,见识一下它的本领。

解释笑话

PaLM原始论文中展示了一个非常酷的用例:给定一个笑话,让模型解释它为什么好笑。这个任务需要把尝试和逻辑结合起来,PaLM之前的所有模型都无法做到这一点。

将其中一些笑话交给LLaMA和ChatGPT来解释,有些笑话语言模型能get到,比如Schimidhuber冗长无聊的发言。

图片

但总体上LLaMA和ChatGPT都没什么幽默感。

不过两者应对听不懂的笑话的策略不同,ChatGPT会产生「一堵文本墙」,希望其中至少有一些语句是正确答案,这种行为就像是不知道答案的学生,希望老师能从他们的一通乱说里找出答案。

零样本归类

这是一种很实用的功能,使得人们可以用LLM代替评分员来生成训练集,然后在这些训练集上训练较小的可服务的模型。

一个更有挑战性的任务是点击广告分类,由于连人类都不能就什么是点击广告达成一致,在提示中会向模型提供一些例子,所以事实上这是一个少样本而非零样本归类。下面是LLaMA的提示。

测试中只有LLaMA-33B会设法遵循所要求格式给出答案,而且其预测是合理的,ChatGPT表现次之,能给出比较合理的答案,但时常不按规定的格式回答,较小的7B、13B模型则不太适合完成这项任务。

图片

代码生成

虽然法LLM在人文方面表现出色,但不擅长STEM科目,那么LLaMA在这方面的表现如何呢?

在提示中,给出搜索表的形式和希望达到的目的,要求模型给提供SQL查询语句。

ChatGPT在这项任务中表现更好一点,但语言模型给出的结果总体都不太靠谱。

图片

在与ChatGPT对比进行的各项测试中,LLaMA并没有如想象中一样大获全胜。当然如果其间差距只是由RLHF(带有人类反馈的强化学习)造成的,那小型模型的未来可能会更光明。

相关文章

Github
Github

Github是一款非常实用的代码开放工具,用户可以按照自己的需求进行搜索,从而快速定位到所需的代码或项目位置,还能在软件中建立自己的代码仓库,有需要的小伙伴快来保存下载体验吧!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

31

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

9

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

32

2026.01.28

php怎么写接口教程
php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

1

2026.01.28

php中文乱码如何解决
php中文乱码如何解决

本文整理了php中文乱码如何解决及解决方法,阅读节专题下面的文章了解更多详细内容。

3

2026.01.28

Java 消息队列与异步架构实战
Java 消息队列与异步架构实战

本专题系统讲解 Java 在消息队列与异步系统架构中的核心应用,涵盖消息队列基本原理、Kafka 与 RabbitMQ 的使用场景对比、生产者与消费者模型、消息可靠性与顺序性保障、重复消费与幂等处理,以及在高并发系统中的异步解耦设计。通过实战案例,帮助学习者掌握 使用 Java 构建高吞吐、高可靠异步消息系统的完整思路。

8

2026.01.28

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

23

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

122

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

51

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3-瞬间提升网页逼格的利器
CSS3-瞬间提升网页逼格的利器

共56课时 | 17.1万人学习

最新的面向对象OOP编程视频教程
最新的面向对象OOP编程视频教程

共41课时 | 7.5万人学习

Css3入门视频教程
Css3入门视频教程

共21课时 | 3.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号