0

0

揭秘:阶跃星辰万亿MoE+多模态大模型矩阵亮相

WBOY

WBOY

发布时间:2024-07-05 08:20:35

|

1088人浏览过

|

来源于机器之心

转载

在 2024 年世界人工智能大会的现场,很多人在一个展台前排队,只为让 ai 大模型给自己在天庭「安排」一个差事。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

揭秘:阶跃星辰万亿moe+多模态大模型矩阵亮相

流程:
  1. 提供个人照片
  2. 生成仙界形象照(参照《大闹天宫》画风)
  3. 交互式剧情选择和交谈环节
  4. 基于选择和回答评估 MBTI 人格类型
  5. 根据人格类型 "安排" 天庭差事

体验方式:

  • 现场排队
  • 在线体验(扫描下方二维码)

    揭秘:阶跃星辰万亿MoE+多模态大模型矩阵亮相

    大模型创业公司阶跃星辰公布大招

与上影合作的 AI 互动体验《AI + 大闹天宫》只是阶跃星辰展示大模型魅力的开胃菜。在 WAIC 期间,他们隆重推出了以下大招:

  1. 万亿参数 MoE 大模型Step-2 正式版
  2. 千亿参数的多模态大模型Step-1.5V
  3. 图像生成大模型Step-1X

Step-2 万亿参数大模型

Amazon Nova
Amazon Nova

亚马逊云科技(AWS)推出的一系列生成式AI基础模型

下载

在 3 月份与阶跃星辰首次亮相后,Step-2 已进化至全面接近 GPT-4 的水平,在数理逻辑、编程、中文知识、英文知识和指令遵循等方面表现优异。

Step-1.5V 多模态大模型

基于 Step-2 模型,阶跃星辰开发出了多模态大模型 Step-1.5V,不仅具有强大的感知和视频理解能力,还可根据图像内容进行高级推理(如解答数学题、编写代码、创作诗歌)。

Step-1X 图像生成大模型

《AI + 大闹天宫》中的图像生成由 Step-1X 模型完成,该模型针对中国元素进行了深度优化,并拥有出色的语义对齐和指令遵循能力。

阶跃星辰已建立起涵盖万亿参数 MoE 大模型和多模态大模型的完整大模型矩阵,成为大模型创业公司第一梯队。这得益于他们对 Scaling Law 的坚持以及匹配的技术和资源实力。

从头训练的

Step-2 万亿参数大模型

万亿参数量将显著提升模型在数学、编程等领域的推理能力。Step-2 相比千亿级模型,可解决更为复杂的数理逻辑和编程问题,也得到了基准评测的量化证实。

揭秘:阶跃星辰万亿MoE+多模态大模型矩阵亮相

此外,它的中英文能力和指令跟随能力也实现了明显提升。
Step-2 之所以表现如此优异,一方面得益于它巨大的参数量,另一方面也得益于它的训练方法。
我们知道,训练 MoE 模型主要有两种方式。一种是 upcycle,即通过重新利用训练过程的中间结果或已经训练好的模型,以更高效和更经济的方式进一步提升模型性能。这种训练方式算力需求低,训练效率高,但训练出的模型往往上限要低一些。比如,在训练 MoE 模型时,如果多个专家模型是通过拷贝和微调相同的基础模型得到的,那么这些专家模型之间可能会存在高度相似性,这种同质化会限制 MoE 模型的性能提升空间。
考虑到这些局限,阶跃星辰选择了另一种方式 —— 完全自主研发,从头开始训练。这种方式虽然训练难度高、算力消耗大,但能获得更高的模型上限。
具体来说,他们首先在 MoE 架构设计方面做了一些创新,包括部分专家共享参数、异构化专家设计等。前者可以确保某些通用能力在多个专家之间共享,但同时每个专家仍然保留其独特性。后者通过设计不同类型的专家模型,使每个专家在特定任务上都有独特的优势,从而增加模型的多样性和整体性能。
基于这些创新,Step-2 不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了市面上大部分的密集模型。
此外,从头训练这样一个万亿参数模型对于系统团队也是很大的考验。好在,阶跃星辰系统团队拥有丰富的系统建设与管理实践经验,这让他们在训练过程中顺利突破了 6D 并行、极致显存管理、完全自动化运维等关键技术,成功完成了 Step-2 的训练。站在 Step-2 肩膀上的 Step-1.5V 多模态大模型
三个月前,阶跃星辰发布了 Step-1V 多模态大模型。最近,随着 Step-2 正式版的亮相,这个多模态大模型也升级到了 1.5 版本。
Step-1.5V 主要侧重多模态理解能力。与之前的版本相比,它的感知能力大大提升,能够理解复杂图表、流程图,准确感知物理空间复杂的几何位置,还能处理高分辨率和极限长宽比的图像。

揭秘:阶跃星辰万亿MoE+多模态大模型矩阵亮相

此外,它还能理解视频,包括视频中的物体、人物、环境以及整体氛围和人物情绪。

前面提到,在 Step-1.5V 的诞生过程中,Step-2 功不可没。这指的是,在 Step-1.5V 进行 RLHF(基于人类反馈的强化学习)训练过程中,Step-2 是作为监督模型来用的,这相当于 Step-1.5V 有了一个万亿参数的模型当老师。在这个老师的指导下,Step-1.5V 的推理能力大大提升,能够根据图像内容进行各类高级推理任务,如解答数学题、编写代码、创作诗歌等。这也是 OpenAI GPT-4o 最近所展示的能力之一,这项能力让外界对于它的应用前景充满了期待。

多模态的生成能力主要体现在 Step-1X 这个新模型上。与一些同类模型相比,它有更好的语义对齐和指令跟随能力,同时针对中国元素做了深度优化,更适合国人的审美风格。

基于该模型打造的《大闹天宫》AI 互动体验的背后融合了图像理解、风格迁移、图像生成、剧情创作等多种能力,丰富立体地展现了阶跃星辰行业领先的多模态水平。例如,在初始角色生成时,系统首先会判断用户上传的照片是否符合「捏脸」要求,然后用非常《大闹天宫》的语言风格灵活给予反馈。这里就体现了模型的图片理解能力和大语言模型的能力。在大模型技术加持下,这款游戏就让玩家获得了和传统线上 H5 游戏完全不同的互动体验。因为所有的互动问题、用户形象、分析结果都是模型实时学习特征后生成的,真正做到了千人千面和无限剧情的可能。

揭秘:阶跃星辰万亿MoE+多模态大模型矩阵亮相

这些优异的表现离不开阶跃星辰全链路自研的 DiT 模型架构(OpenAI 的 Sora 也是 DiT 架构)。为了让更多人用上该模型,阶跃星辰给 Step-1X 设计了 600M、2B、8B 三种不同的参数量,以满足不同算力场景的需求。

在 3 月份的亮相活动中,阶跃星辰创始人姜大昕曾明确指出,他认为大模型的演进会经历三个阶段: 

  1. 在第一个阶段,语言、视觉、声音等各个模态是独立发展的,每个模态的模型专注于学习和表征其特定模态的特点。
  2. 在第二个阶段,不同的模态开始走向融合。但这个融合并不彻底,理解和生成任务依然是分开的,这造成模型理解能力强但生成能力弱,或者反之。
  3. 在第三个阶段,生成和理解被统一在一个模型里,然后去和机器人充分结合,形成具身智能。接下来,具身智能去主动探索物理世界,然后逐步演变成世界模型,进而实现 AGI。

这也是姜大昕等人从创业之初就在坚持的路线。在这条路上,「万亿参数」和「多模融合」缺一不可,Step-2 和 Step-1.5V、Step-1X 都是他们在这条路上达成的节点。

而且,这些节点是一环套一环的。以 OpenAI 为例,他们在年初发布的视频生成模型 Sora 使用了 OpenAI 的内部工具(很可能是 GPT-4V)进行标注;而 GPT-4V 又是以 GPT-4 相关技术为基础训练出来的。就目前来看,单模态模型的强大能力会为多模态打下基础;多模态的理解又会为生成打下基础。靠着这样的模型矩阵,OpenAI 实现了左脚踩右脚。而阶跃星辰正在国内印证这条路线。

我们期待这家公司给国内大模型领域带来更多惊喜。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

67

2025.12.13

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

49

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

88

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

273

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

59

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

99

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

618

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号