0

0

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

雪夜

雪夜

发布时间:2025-01-08 19:29:42

|

706人浏览过

|

来源于php中文网

原创

「php中文网(公众号:php中文网)消息」今天,月之暗面官方宣布:继 11 月 16 日发布数学模型 k0-math 后,他们又推出了新的视觉思考模型 k1,且「数理化」的能力又上了一个新台阶,实测结果丝毫不输 openai o1!

最直接的实测例子是:当我们把杨振宁、伽利略等世界知名科学家的研究手稿拍照、上传后,k1 居然能识别图片中的文字,生动解读背后的物理、天文学等科学知识,从而回答用户的提问并给出清晰完整的推理思考过程。

例如,当我们上传杨振宁的手稿并向 k1 提问,k1 给出了超乎小编知识范畴所能辨真伪的答案:

这是杨振宁的手稿图片——

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

这是我们的询问:这是物理学家杨振宁的手稿照片,请你一步一步分析,杨振宁在计算什么,他可能在想什么,当时可能是什么背景?

这是 k1 的回答:

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

上下滑动查看长图

虽然小编既不懂电磁场、也不懂粒子动力学,但看完 k1 的答案着实大吃一惊!

并忍不住发出灵魂叩问:图灵测试面对大模型还有效吗?人类读者面对这样的问题怎么区分 k1 与尔等用户的区别?当 AI 大模型不断进化,假以时日图灵测试的标准答卷是否会变成:同一个问题的两个不同答案,答案更高明的永远盲选「机器」、答案更普通的永远盲选「人类」……

更重要的是:从数学模型 k0 到视觉思考模型 k1,月之暗面(Kimi)仅用了一个月!

据了解,k1 是基于 k0 的模型升级。k0-math 模型数学能力出众,但由于仅支持 LaTeX等格式的文本输入,依赖图形理解能力的部分几何图形题无法解决。而新的 k1 视觉思考模型借助端到端的图像理解能力,解锁了包括几何题在内更加全面的数学能力。

当多模态智能不断进化,视觉模型的推理能力从文本拓展到「数理化」,我们可以大胆猜想:Kimi 大模型不仅能轻松解决传统的文本与图像信息对齐问题,连谢尔顿怎么教佩妮学物理的难题都能解决了!

1
中国首个视觉思考模型

自 2021 年 1 月 OpenAI 发布 DALL·E 及图文对齐架构 CLIP 以来,事实上业内针对图像-文本任务的双模态信息对齐与处理提出了多样化的解决思路,并发表了大量工作。

但过去三年来,这些模型的特征局限在文本数据上:

首先,以生成为主,如文生图任务,强调图文对齐、而非推理。例如,国内有大批厂商早在今年上半年就已推出看图说话功能,主要应用在旅游景点介绍、拍照生成搭配诗词歌赋等,缺少较强的常识认知与逻辑推理等能力。

其次,不具备一步一步拆解分析数理化问题的思维链能力,没有将基础大模型的语义理解与数理化问题的深度思考需求结合起来。

此外,撇开底层基础模型的能力差异不说,由于推理模型的产品体验不如纯文生图或图生视频等来得直观,模型的思考能力需要结合模型的文本输出能力来获得一手观感。而其中,长文本是展示模型推理的最佳方式之一。

而 Kimi 今天发布的视觉思考模型 k1 ,基于强大的基础模型,就从答案输出的长文本能力体现了其在多模态推理上的跃升。

值得注意的是,这也是国内首个视觉思考模型!

不同于以往国内外发布的推理模型,k1 的推理能力有两大优势:一是数理化能力杰出,二是视觉识别与逻辑推理能力强强结合。

首先,根据官方数据披露,在 k0-math 数学模型的基础上,k1 的能力不仅扩大到了数学领域中的几何图形方向,还增加了物理、化学等基础科学能力。

在基础教育各阶段的几何和图形题专项基准能力测试中,k1-preview 成绩打平或超过了 OpenAI 的 o1 模型:

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

结合端到端图像理解和深度思维链推理技术,在数学、物理、化学等基础教育学科的基准能力测试中,初代 k1 模型表现接近或超过 OpenAl o1、GPT-4o 以及 Claude 3.5 Sonnet 等领先视觉模型,达到了全球一流水平:

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

此外,k1 还具备超强的视觉识别能力,并将视觉识别能力与语言推理能力强强结合!

k1 可以准确识别强噪声干扰下拍摄的图片信息,包括但不限于灰暗灯光下拍摄、拍摄有阴影、拍摄书本弯折起伏、拍摄模糊或虚化、有手写字迹干扰等等传统视觉识别也难以解决的场景:

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

在推理模型的实际应用中,除了文本识别,涉及到公式与图形的理工类图文信息识别往往是用户直接拍照输入解答。

传统基于文本的推理模型,或者不支持图像信息输入,或者需要借助外部 OCR/视觉模型进行转换,效果有明显损失。而 k1 的视觉部分针对这一问题进行了显著改善。

据 AI 科技评论了解,学生群体一直是 Kimi 用户数最广的群体之一,更是 Kimi 崛起的重要幕后推手之一。本次 k1 的视觉思考能力,精准捕捉了学生拍照识题并深度解读的需求,将成为扫描王等产品的强有力竞争对手!

基准测试数据显示,在复杂拍摄条件下,例如照片图像不清晰、多题一起拍、手写字迹干扰,甚至纯手写的题目等场景,k1 模型相比 OpenAI 和 Anthropic 的视觉思考模型,有更显著的领先优势:

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

2
k1 掀起科学家手稿识别风

相较 k0 的数学能力,k1 解锁数理化并结合视觉识别与推理的能力,显然拥有更广阔的应用场景。其中,最震撼的是 k1 居然能解读诺贝尔奖级别的科学家研究手稿或笔记!

除了开头的杨振宁手稿,k1 的发布还掀起了一批对伽利略、钱学森等科学家的手稿识别风:

先看伽利略的天文学研究。输入一张牛顿的笔记图片:

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

询问 k1:请一步步推测一下这个笔记的作者是谁,笔记内容在讲什么?

k1 的回答如下:

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

听脑AI
听脑AI

听脑AI语音,一款专注于音视频内容的工作学习助手,为用户提供便捷的音视频内容记录、整理与分析功能。

下载

答案简直逆天有木有!

k1 视觉模型的体验入口已经放在 Kimi 首页,为此小编也抓紧去体验了一下来自科学家的大脑暴击!

接着我又去网上找了几张科学家的手稿照片,这是钱学森的:

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

我心想图片这么模糊、字迹这么别具一格,k1 总该难倒了吧,结果,k1 不仅精确识别!还逻辑清晰!振振有词!

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

对于尔等文科生来说,这就好像能带计算机进考场考数学一样,以后行走江湖岂不是轻轻松松纵横四海?(狗头护身)

看到 k1 这么轻松就能解答复杂的数理化研究笔记,小编又忍不住思考:k1 能解答科学家手稿,那能解答抽象的现代美术展馆的艺术展品吗?让我来试试。

输入莫奈的《睡莲》,k1 解读依然完美:

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

不过,当我输入莫奈另一幅由于战乱辗转导致残缺的《睡莲》画作与今年香港巴塞尔艺术展上颇受关注的油彩笔所画真人画作时,k1 的表现则没有解读科学家笔记时那么深刻、严谨,原因或许是因为训练数据不足。

但在对未知或不那么熟悉的知识领域,k1 也能以拟人、优美的文字表达,展示一步一步思考问题的能力:

输入莫奈残缺版睡莲:

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

k1 的解读如下:

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

在处理包含复杂信息的图像上,k1 的能力无疑是当前国产模型的先锋,尤其在包含复杂公式与几何图形的数理化问题上。相比艺术作品,后者更能体现底层模型的逻辑推理能力。

而从用户的体验角度评价,由于 k1 结合了思维链与长文本技术,无论面对理科还是文科问题时都能给出一份展示完整思考过程的答案,在人机交互的产品创新上依然能给我们带来新意。

3
月之暗面的 AGI 进阶之路

大模型冲刺 AGI 的下一步趋势,主要有三块:多模态、推理与 AI 的自我学习。

这三块中的每一块难题攻关,都是挑战重重;而 k1 的发布,至少体现了月之暗面攻克 AGI 的两个重大命题,即多模态与推理,更是难上加难,尤其 k1 将两者结合,无论是技术还是产品上都体现出了月之暗面团队持续的创新能力。

今年下半年起,月之暗面在 Kimi 产品上频频推出新功能:

10 月,Kimi探索版革新「AI搜索」,强调AI的自助搜索能力,瞄准传统搜索引擎的弊端,解决了大量 AI 搜索不痛不痒「拼凑大量信息」问题,重新定义了「AI搜索」。

11 月,上个月的今天月之暗面发布了数学模型 k0-math,其数学能力对标 OpenAI o1 系列。

12 月,今天月之暗面在 k0-math 模型的基础上再推出视觉思考模型k1,数理化能力再上一个台阶。

可以看到,这家大模型公司正在以月为单位的速度推出新技术、更新Kimi产品细节。

一年前,月之暗面发布了支持输入 20 万汉字的智能助手产品 Kimi,创造了 C 端 AI 所支持的上下文输入长度的新纪录,以「长文本」策略一举打响了 C 端 AI 产品市场,赢得一大批用户,也给其他大模型公司带来不小压力。

之后,Kimi的产品能力和技术实力万众期待,整个业界都在期待 Kimi 的下一个动作会是什么,但在之后的整整十一个月里,Kimi都没有任何新的技术发布。

而在这段时间里,Sora、GPT-4o、GPT-o1等现象级产品一次次点燃大众的热情,整个大模型领域都在跟进,每天谁家又做出来「类 Sora」 产品、谁家又超过GPT-4o……好不热闹。

在GPT-o1发布后,其推理能力惊艳,主要体现在数学与编程上。这不仅涉及到思维链的 scale-up,模型推理能力的数据来源、以及背后的训练方法也十分关键。

早在今年 4月底清华人工智能学院的成立大会上,多模态方向领先研究者、京东技术副总裁何晓冬就预测过,下一代大模型的训练大概率是通过模型生成的数据和标注、以及模型互相对抗这条“类强化学习”技术路线来推进。

k0-math 发布时,杨植麟也提出,基于强化学习的 scale-up 比简单预测下一个 token更能提升 AI 模型的思考能力,他认为多模态最重要的也是思考与交互,但思考的重要性远大于交互,思考决定了上限。

基干强化学习技术,AI模型具备像人一样思考的潜力:在遇到问题时,首先分析问题,并提出不同的解法,然后根据不同的解法进行不断试验、反思并改进。

自 AlphaGo 开始,深度强化学习一直被视为实现 AGI 的关键路径之一。但在过去,由于深度强化学习有两大缺陷:一是样本效率与计算效率低,二是算法安全性与鲁棒性低,其不适用于解决现实世界中交通、医疗、金融等关键领域的智能决策问题,因为这些领域的容错率低、一旦出错则风,险极高。

但大模型时代到来后,结合大模型的语义理解与 2022 年出现的思维链技术后,强化学习有了新的生命。通过在大模型产品交互中引入强化学习的过程奖励机制,对模型的推理过程进行逐步激励与惩罚,激励模型生成更详细、质是更高的推理过程。

Kimi 将基于强化学习技术的新一代模型,称为“思考模型”。

这是月之暗面创始人杨植麟技术路线思考的直观体现。

而在明确强化学习与AI思考能力放下之前,月之暗面也经历过战略调整,但最终决定要聚焦,聚焦Kimi。杨植麟称,这是他们主动做了业务减法的结果,聚焦去做离 AGI 上限最高的事情,然后做好。

从 k0 到 k1,月之暗面都给国内的大模型发展带来了惊喜,k1 之后,k2、k3、k4…会如何迭代呢?作为技术的领跑者,Kimi 正在定义属于自己的 AGI 路线。

Kimi 数理化能跟 o1 掰手腕了?新模型 k1 有点儿强

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6632

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

843

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2201

2024.03.01

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

500

2023.08.14

什么是搜索引擎
什么是搜索引擎

搜索引擎是一种互联网工具,用于帮助用户在网上查找信息。搜索引擎的目标是提供最准确、最有价值的搜索结果,使用户能够快速找到所需的信息。本专题为大家提供搜索引擎相关的各种文章、以及下载和课程。

495

2023.08.02

有哪些目录搜索引擎
有哪些目录搜索引擎

目录搜索引擎有Google、Bing、Yahoo、Baidu、DuckDuckGo等。想了解更多目录搜索引擎的相关内容,可以阅读本专题下面的文章。

6572

2023.11.06

搜索引擎营销的主要模式
搜索引擎营销的主要模式

搜索引擎营销的主要模式包括:1. 竞价排名(ppc);2. 搜索引擎优化(seo);3. 本地搜索营销;4. 购物广告;5. 视频广告;6. 展示广告;7. 社交媒体营销;8. 移动广告。想了解更多搜索引擎营销的相关内容,可以阅读本专题下面的文章。

473

2024.05.20

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Highcharts中文参考手册
Highcharts中文参考手册

共16课时 | 8.5万人学习

ios开发手册中文版
ios开发手册中文版

共25课时 | 20.8万人学习

Docker 教程
Docker 教程

共19课时 | 20.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号