0

0

百度文心一言在国产模型中倒数?我看懵了

WBOY

WBOY

发布时间:2023-05-24 09:25:05

|

1904人浏览过

|

来源于51CTO.COM

转载

 夕小瑶科技说 原创
 作者 | 卖萌酱最近几天,我们公众号的社群在纷纷转发一张名为superclue 评测的截图。科大讯飞甚至在官号进行了宣传:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

百度文心一言在国产模型中倒数?我看懵了

由于讯飞星火大模型刚发布,笔者玩的少,它是不是真的是国产最强这个笔者不敢下结论。

但在该评测截图中,当下国产模型中热度最高的百度文心一言竟然连一个小型的学术开源模型ChatGLM-6B都打不过。这不仅与笔者自己的使用体验严重不符,而且在我们的专业NLP技术社群中,大家也纷纷表示一脸懵逼:

百度文心一言在国产模型中倒数?我看懵了

百度文心一言在国产模型中倒数?我看懵了

好奇之下,笔者去这个superclue榜单的github,想看看这个测评结论是怎么得出来的:https://www.php.cn/link/97c8dd44858d3568fdf9537c4b8743b2

首先笔者注意到这个repo下面已经有一些issue了:

百度文心一言在国产模型中倒数?我看懵了

百度文心一言在国产模型中倒数?我看懵了

看起来这个离谱的感觉不仅仅是笔者有,果然群众的眼睛还是雪亮的。。。

笔者进一步看了一下这个榜单的评测方式:

百度文心一言在国产模型中倒数?我看懵了

好家伙,原来所谓的生成式大模型的测试,竟然全都是让模型做选择题。。。

很明显这种做选择题的评测方式是针对BERT时代的判别式AI模型的,那时候的AI模型普遍不具备生成能力,仅仅有判别能力(比如能判别一段文本属于什么类别,选项中哪个是问题的正确答案,判断两段文本的语义是否一致等)。

而生成式模型的评测与判别式模型的评测有相当于大的差异。

例如,对于机器翻译这种特殊的生成任务而言,一般采用BLEU等评价指标来检测模型生成的回复与参考回复之间的“词汇、短语覆盖度”。但机器翻译这种有参考回复的生成类任务是极少数,绝大多数的生成类评测都要采用人工评测的方式。

例如闲聊式对话生成、文本风格迁移、篇章生成、标题生成、文本摘要等生成任务,都需要各个待评测模型去自由生成回复,然后人工去对比这些不同模型生成的回复的质量,或人工判断是否满足了任务需求。

当前这一轮的AI竞争,是模型生成能力的竞争,而不是模型判别能力的竞争。最有评价权的是真实的用户口碑,不再是一个个冰冷的学术榜单。更何况是一个压根没测模型生成能力的榜单。

回想起来前些年——

2019年,OpenAI发布了GPT-2的时候,我们在堆tricks刷榜;

2020年,OpenAI发布了GPT-3的时候,我们在堆tricks刷榜;

2021-2022年,FLAN、T0、InstructGPT等instruction tuning和RLHF工作爆发的时候,我们还有不少团队在坚持堆tricks刷榜…

希望这一波生成式模型的军备竞赛,我们不要再重蹈覆辙。

那么生成式AI模型到底应该怎么测?

很抱歉,我前面说过,如果想做到无偏测试,非常非常的难,甚至比你自研一个生成式模型出来难得多。难度有哪些?具体抛几个问题:

  • 评测维度该如何划分?按理解、记忆、推理、表达?按专业领域?还是将传统的NLP生成式评测任务杂揉起来?
  • 评测人员如何培训?对于写代码、debug、数学推导、金融法律医疗问答这种专业门槛极高的测试题,该如何招募人员测试?
  • 主观性极高的测试题(如生成小红书风格的文案),该如何定义评测标准?
  • 问几个泛泛的写作类问题就能代表一个模型的文本生成/写作能力了吗?
  • 考察模型的文本生成子能力,篇章生成、问答生成、翻译、摘要、风格迁移都覆盖到了吗?各个任务的占比均匀吗?评判标准都清晰吗?统计显著吗?
  • 在上面的问答生成子任务里,科学、医疗、汽车、母婴、金融、工程、政治、军事、娱乐等各个垂类都覆盖到了吗?占比均匀吗?
  • 如何测评对话能力?对话的一致性、多样性、话题深度、人格化分别怎么设计的考察任务?
  • 对于同一项能力测试,简单问题、中等难度问题和复杂长冷问题都覆盖到了吗?如何界定?分别占比多少?

这只是随手抛的几个要解决的基础问题,在实际基准设计的过程中,要面临大量比以上问题棘手得多的问题。

因此,作为AI从业者,笔者呼吁大家理性看待各类AI模型排名。连一个无偏的测试基准都没有出现,要这排名有何用?

还是那句话,一个生成式模型好不好,真实用户说了算。

一个模型在一个榜单的排名再高,它解决不好你在意的问题,它对你来说就是个一般般的模型。换言之,一个排名倒数的模型,如果在你关注的场景下发现非常强,那它对你来说就是个宝藏模型。

在此,笔者公开了我们团队内部富集和撰写的一个hard case(困难样例)测试集。这份测试集重点关注模型对困难问题/指令的解决能力。

这个困难测试集重点考察了模型的语言理解、复杂指令理解与遵循、文本生成、复杂内容生成、多轮对话、矛盾检测、常识推理、数学推理、反事实推理、危害信息识别、法律伦理意识、中国文学知识、跨语言能力和代码能力等。

再次强调一遍,这是笔者团队为测试生成式模型对困难样例解决能力而做的一个case集,评测结果只能代表“对笔者团队而言,哪个模型感觉更好”,远远不能代表一个无偏的测试结论,如果想要无偏的测试结论,请先解答以上提到的测评问题,再去定义权威测试基准。

想要自己评测验证的小伙伴,可以在本公众号“夕小瑶科技说”后台回复【AI评测】口令来下载测试文件

玄鲸Timeline
玄鲸Timeline

一个AI驱动的历史时间线生成平台

下载

以下是在superclue榜单中受争议最大的讯飞星火、文心一言与ChatGPT这三个模型的测评结果:

百度文心一言在国产模型中倒数?我看懵了

百度文心一言在国产模型中倒数?我看懵了

百度文心一言在国产模型中倒数?我看懵了

困难Case解决率:

  • ChatGPT(GPT-3.5-turbo):11/24=45.83%
  • 文心一言(2023.5.10版本):13/24=54.16%
  • 讯飞星火(2023.5.10版本):7/24=29.16%

这是要论证讯飞星火不如文心一言吗?如果你仔细看前文了,就明白笔者想说什么。

确实,尽管在这份我们内部的困难case集上,星火模型不如文心一言,但这不能说明综合起来谁一定比谁强,仅仅说明,在我们团队内部的困难case测试集上,文心一言表现最强,甚至比ChatGPT多解决了2个困难case。

对于简单问题而言,其实国产模型跟ChatGPT已经没有太大差距。而对于困难问题而言,各个模型各有所长。就笔者团队的综合使用体验来看,文心一言完全足以吊打ChatGLM-6B等学术测试性质的开源模型,部分能力上不如ChatGPT,部分能力上又超越了ChatGPT。

阿里通义千问、讯飞星火等其他大厂出品的国产模型也是相同的道理。

还是那句话,如今连一个无偏的测试基准都没出现,你要那模型排名有啥用?

比起争论各类有偏的榜单排名,不如像笔者团队一样去做一个自己关心的测试集。

能解决你问题的模型,就是好模型。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

397

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

575

2023.08.10

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

1009

2026.01.21

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

28

2026.01.27

ChatGPT注册
ChatGPT注册

ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。

538

2023.09.12

国内免费ChatGPT大全
国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型,由OpenAI开发。它是GPT的一个变体,专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人,可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题,希望对大家能有所帮助。

585

2023.10.25

手机安装chatgpt的方法
手机安装chatgpt的方法

手机安装chatgpt的方法:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

2865

2024.03.05

chatgpt国内可不可以使用
chatgpt国内可不可以使用

chatgpt在国内可以使用,但不能注册,港澳也不行,用户想要注册的话,可以使用国外的手机号进行注册,注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

1037

2024.03.05

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

0

2026.01.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.7万人学习

Go 教程
Go 教程

共32课时 | 4.4万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号