0

0

Step-Video-TI2V— 阶跃星辰开源的图生视频模型

碧海醫心

碧海醫心

发布时间:2025-03-22 12:06:26

|

383人浏览过

|

来源于php中文网

原创

Step-Video-TI2V是什么

step-video-ti2v 是阶跃星辰(stepfun)推出的开源图生视频(image-to-video)生成模型,拥有 300 亿参数,能根据文本描述和图像输入生成最长 102 帧的视频。模型基于深度压缩的变分自编码器(video-vae),实现了 16×16 的空间压缩和 8× 的时间压缩,显著提高了训练和推理效率。用户可以通过设置运动分数(motion score)来平衡视频的动态性和稳定性。支持推、拉、摇、移、旋转、跟随等多种镜头运动方式。

知鹿匠
知鹿匠

知鹿匠教师AI工具,新课标教案_AI课件PPT_作业批改

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Step-Video-TI2V— 阶跃星辰开源的图生视频模型

Step-Video-TI2V的主要功能

  • 图生视频生成:用户可以提供一张图片和相关的文本描述,模型会根据这些输入生成一段连贯的视频。
  • 高质量视频输出:支持生成最多 102 帧、5 秒、540P 分辨率的视频,能满足多种创作需求。
  • 动态性调节:用户可以通过设置运动分数(motion score)来控制视频的动态性。例如,运动分数为 2 时,视频更稳定但动态性较差;运动分数为 10 或 20 时,视频的动态性更强。
  • 平衡动态与稳定:通过运动分数的调节,用户可以在动态效果和稳定性之间找到最佳平衡。
  • 镜头运动控制:支持多种运镜方式,包括固定镜头、上下左右移动、上下左右摇、放大缩小、推进拉远、旋转、环绕以及焦点转移等。
  • 电影级运镜效果:能生成类似电影级别的复杂运镜效果,满足专业创作需求。
  • 动漫效果优化:在动漫风格视频生成方面表现出色,能生成具有虚化背景、动态动作等特效的视频。适合用于动画创作、短视频制作等应用场景。
  • 灵活的视频尺寸:支持多种尺寸的视频生成,包括横屏、竖屏和方屏,用户可以根据不同的创作需求和平台特性选择合适的视频尺寸。
  • 多语言支持:配备双语文本编码器,支持中英文提示输入,方便不同语言背景的用户使用。
  • 特效生成能力:初步具备特效生成能力,未来将通过技术优化进一步提升特效生成效果。

Step-Video-TI2V的技术原理

  • 深度压缩的变分自编码器(Video-VAE):Step-Video-TI2V 使用了深度压缩的变分自编码器(Video-VAE),实现了 16×16 的空间压缩和 8× 的时间压缩。显著降低了视频生成任务的计算复杂度,同时保持了优异的视频重建质量。Video-VAE 采用了双路径架构,能有效分离高低频信息,进一步优化视频生成的效果。
  • 基于扩散的 Transformer(DiT)架构:模型基于扩散的 Transformer(DiT)架构,包含 3D 全注意力机制。通过 Flow Matching 训练方法,将输入噪声逐步去噪为潜在帧,将文本嵌入和时间步作为条件因子。这种架构在生成具有强烈运动动态和高美学质量的视频方面表现出色。
  • 双语文本编码器:Step-Video-TI2V 配备了双语文本编码器,能处理中英文提示。使模型可以直接理解中文或英文输入,生成与文本描述相符的视频。
  • 直接偏好优化(DPO):为了进一步提升生成视频的质量,Step-Video-TI2V 引入了视频直接偏好优化(Video-DPO)方法。DPO 通过人类偏好数据对模型进行微调,减少伪影并增强视觉效果,使生成的视频更加平滑和真实。
  • 级联训练策略:模型采用了级联训练流程,包括文本到图像(T2I)预训练、文本到视频/图像(T2VI)预训练、文本到视频(T2V)微调和直接偏好优化(DPO)训练。加速了模型的收敛,充分利用了不同质量的视频数据。
  • 系统优化:Step-Video-TI2V 在系统层面进行了优化,包括张量并行、序列并行和 Zero1 优化,实现高效的分布式训练。引入了高性能通信框架 StepRPC 和双层监控系统 StepTelemetry,优化数据传输效率和识别性能瓶颈。

Step-Video-TI2V的项目地址

  • Github仓库:http://github.com/stepfun-ai/Step-Video-TI2V
  • HuggingFace模型库:http://huggingface.co/stepfun-ai/stepvideo-ti2v
  • arXiv技术论文:http://arxiv.org/pdf/2503.11251

如何使用Step-Video-TI2V

  • 访问跃问视频:访问跃问视频的官方网站或App端。
  • 操作步骤:点击上传图片,输入文本描述。调整参数(如运动分数等)。点击生成按钮,下载或分享视频。

Step-Video-TI2V的应用场景

  • 动画制作:Step-Video-TI2V 特别擅长生成动漫风格的视频,能根据输入的图片和文本描述生成流畅的动画。
  • 短视频制作:模型支持多种运镜方式,如推拉摇移、旋转、环绕等,能生成具有电影级效果的短视频。
  • 动作教学:Step-Video-TI2V 可以生成复杂动态场景,如体育动作教学、舞蹈教学等。
  • 特效制作:模型能生成具有美感和真实感的视频,适用于电影、电视剧和游戏中的特效制作。
  • 产品展示:Step-Video-TI2V 可以生成吸引人的广告视频,展示产品特点或品牌故事。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

14

2026.01.30

c++ 字符串格式化
c++ 字符串格式化

本专题整合了c++字符串格式化用法、输出技巧、实践等等内容,阅读专题下面的文章了解更多详细内容。

9

2026.01.30

java 字符串格式化
java 字符串格式化

本专题整合了java如何进行字符串格式化相关教程、使用解析、方法详解等等内容。阅读专题下面的文章了解更多详细教程。

12

2026.01.30

python 字符串格式化
python 字符串格式化

本专题整合了python字符串格式化教程、实践、方法、进阶等等相关内容,阅读专题下面的文章了解更多详细操作。

4

2026.01.30

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

20

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

18

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

19

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

3

2026.01.29

Java空对象相关教程合集
Java空对象相关教程合集

本专题整合了Java空对象相关教程,阅读专题下面的文章了解更多详细内容。

6

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 3.2万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.5万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 0人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号