0

0

Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了

WBOY

WBOY

发布时间:2023-08-17 15:09:04

|

1292人浏览过

|

来源于51CTO.COM

转载

为了挑战 OpenAI 的 GPT-3.5 和 GPT-4 等封闭模型的主导地位,一系列开源模型正在崛起,其中包括 LLaMa、Falcon 等。最近,Meta AI 推出了被誉为开源领域最强大模型的 LLaMa-2,许多研究者也在此基础上构建自己的模型。例如,StabilityAI 利用 Orca 风格的数据集对 Llama2 70B 模型进行微调,开发出了 StableBeluga2,在 Huggingface 的 Open LLM 排行榜上也取得了不错的成绩

最新的Open LLM榜单排名已经发生了变化,Platypus(鸭嘴兽)模型成功登上了榜首

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了

作者来自波士顿大学,使用了PEFT、LoRA和数据集Open-Platypus对Platypus进行了基于Llama 2的微调优化

Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了

作者在一篇论文中详细介绍了Platypus

Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了

这篇论文可以在以下网址找到:https://arxiv.org/abs/2308.07317

以下是本文的主要贡献:

  • Open-Platypus 是一个小规模的数据集,由公共文本数据集的精选子集组成。该数据集由 11 个开源数据集组成,重点是提高 LLM 的 STEM 和逻辑知识。它主要由人类设计的问题组成,只有 10% 的问题是由 LLM 生成的。Open-Platypus 的主要优势在于其规模和质量,它可以在很短的时间内实现非常高的性能,并且微调的时间和成本都很低。具体来说,在单个 A100 GPU 上使用 25k 个问题训练 13B 模型只需 5 个小时。
  • 描述了相似性排除过程,减少数据集的大小,并减少数据冗余。
  • 详细分析了始终存在的开放 LLM 训练集与重要 LLM 测试集中包含的数据相污染的现象,并介绍了作者避免这一隐患的训练数据过滤过程。
  • 介绍了对专门的微调 LoRA 模块进行选择和合并的过程。

Open-Platypus 数据集

作者目前已在 Hugging Face 上发布了 Open-Platypus 数据集


Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了

污染问题

为了避免基准测试问题泄漏到训练集中,本文方法首先考虑防止此问题,以确保结果不仅仅是通过记忆产生的偏差。作者在追求准确性的同时,也意识到在标记请再说一次问题时需要灵活性,因为问题的提出方式多种多样,同时还会受到通用领域知识的影响。为了管理潜在的泄漏问题,作者精心设计了启发式方法,用于手动过滤与 Open-Platypus 中基准问题余弦嵌入相似度超过80%的问题。他们将潜在泄漏问题分为三类:(1) 请再说一次问题;(2) 重新描述: 这个区域呈现出灰色的色调问题;(3) 类似但不完全相同的问题。为了谨慎起见,他们将所有这些问题都排除在训练集之外

请再说一次

这段文字几乎完全复制了测试题集的内容,只是对单词进行了轻微修改或重新排列。根据上表中泄漏问题的数量,作者认为这是唯一属于污染的类别。以下是具体例子:

Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了

重新描述: 这个区域呈现出灰色的色调

以下问题被称为重新描述: 这个区域呈现出灰色的色调,包括并非完全请再说一次、属于常识范畴的问题。虽然作者将这些问题的最终评判权留给了开源社区,但他们认为这些问题往往需要专家知识。需要注意的是,这类问题包括指令完全相同,但答案却同义的问题:

Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了

类似但不完全相同

这些问题的具有较高的相似度,但由于问题之间有着细微的变化,在答案上存在着显著差异。

Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了

微调与合并

作者在数据集完善后,专注于两种方法:低秩近似(LoRA)训练和参数高效微调(PEFT)库。与完全微调不同,LoRA保留了预训练模型的权重,并在transformer层中使用秩分解矩阵进行整合,从而减少了可训练参数,节省了训练时间和成本。最初,微调主要集中在注意力模块,如v_proj、q_proj、k_proj和o_proj。随后,根据He等人的建议,扩展到gate_proj、down_proj和up_proj模块。除非可训练参数小于总参数的0.1%,否则这些模块都表现出更好的效果。作者对13B和70B模型都采用了这种方法,结果可训练参数分别为0.27%和0.2%。唯一的区别在于这些模型的初始学习率

结果

根据2023年8月10日Hugging Face Open LLM排行榜数据,作者对Platypus与其他SOTA模型进行了比较,发现Platypus2-70Binstruct变体表现出色,以73.13的平均分稳居榜首

Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了

Stable-Platypus2-13B 模型在 130 亿参数模型中以 63.96 的平均分脱颖而出,值得关注

Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了

局限性

Platypus, as a fine-tuned extension of LLaMa-2, retains many of the constraints of the base model and introduces specific challenges through targeted training. It shares the static knowledge base of LLaMa-2, which may become outdated. Additionally, there is a risk of generating inaccurate or inappropriate content, particularly in cases of unclear prompts. While Platypus has been enhanced in STEM and English logic, its proficiency in other languages is not reliable and may be inconsistent. It occasionally produces biased or harmful content. The author acknowledges efforts to minimize these issues but acknowledges the ongoing challenges, particularly in non-English languages.

对于 Platypus 的滥用可能性,这是一个令人担忧的问题,因此在部署之前开发人员应对其应用程序进行安全测试。Platypus 在其主要领域之外可能存在一些限制,因此用户应小心操作,并考虑进行额外的微调以获得最佳性能。用户需要确保 Platypus 的训练数据与其他基准测试集没有重叠。作者对数据污染问题非常谨慎,避免将模型与在有污点的数据集上训练的模型合并。虽然经过清理的训练数据中确认没有污染,但也不能排除可能有一些问题被忽略。如需详细了解这些限制,请参阅论文中的限制部分

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
while的用法
while的用法

while的用法是“while 条件: 代码块”,条件是一个表达式,当条件为真时,执行代码块,然后再次判断条件是否为真,如果为真则继续执行代码块,直到条件为假为止。本专题为大家提供while相关的文章、下载、课程内容,供大家免费下载体验。

95

2023.09.25

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2088

2024.08.16

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

1

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

1

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

0

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

0

2026.01.29

Java空对象相关教程合集
Java空对象相关教程合集

本专题整合了Java空对象相关教程,阅读专题下面的文章了解更多详细内容。

3

2026.01.29

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

24

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

16

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.6万人学习

Go 教程
Go 教程

共32课时 | 4.3万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号