0

0

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

星夢妙者

星夢妙者

发布时间:2025-01-09 08:19:57

|

455人浏览过

|

来源于php中文网

原创

最近,ai 科技评论发现,国产视频生成模型 open-sora 在开源社区悄悄更新了!

现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。

生成个横屏圣诞雪景,发b站:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

再生成个竖屏,发抖音

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

还能生成单镜头16秒的长视频,这下人人都能过把编剧瘾了:

视频详见:https://mp.weixin.qq.com/s/Z88inagkuFn8svLu788TVQ

怎么玩?指路GitHub:https://github.com/hpcaitech/Open-Sora

更酷的是,Open-Sora 依旧全部开源,包含最新的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节、demo示例 和 详尽的上手教程。

1、Open-Sora技术报告全面解读

最新功能概览

•支持长视频生成;

•视频生成分辨率最高可达720p;

•单模型支持任何宽高比,不同分辨率和时长的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求;

•提出了更稳定的模型架构设计,支持多时间/分辨率/长宽比/帧率训练;

•开源了最新的自动数据处理全流程。

时空扩散模型ST-DiT-2

多阶段训练

根据Open-Sora技术报告指出,Open-Sora采用了一种多阶段训练方法,每个阶段都会基于前一个阶段的权重继续训练。相较于单一阶段训练,这种多阶段训练通过分步骤引入数据,更高效地实现了高质量视频生成的目标。

初始阶段大部分视频采用144p分辨率,同时与图片和 240p,480p 的视频进行混训,训练持续约1周,总步长81k。第二阶段将大部分视频数据分辨率提升至240p和480p,训练时长为1天,步长达到22k。第三阶段进一步增强至480p和720p,训练时长为1天,完成了4k步长的训练。整个多阶段训练流程在约9天内完成,与Open-Sora1.0相比,在多个维度提升了视频生成的质量。

统一的图生视频/视频生视频框架

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

支持图像和视频条件化处理的掩码策略

此外,作者团队还贴心地为推理阶段提供了掩码策略配置的详细指南,五个数字的元组形式在定义掩码策略时提供了极大的灵活性和控制力。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

掩码策略配置说明

支持多时间/分辨率/长宽比/帧率训练

OpenAI Sora的技术报告[3]指出,使用原始视频的分辨率、长宽比和长度进行训练可以增加采样灵活性,改善帧和构图。对此,作者团队提出了分桶的策略。

具体怎么实现呢?通过深入阅读作者发布的技术报告,我们了解到,所谓的桶,是(分辨率,帧数,长宽比)的三元组。团队为不同分辨率的视频预定义了一系列宽高比,以覆盖大多数常见的视频宽高比类型。在每个训练周期epoch开始之前,他们会对数据集进行重新洗牌,并将样本根据其特征分配到相应的桶中。具体来说,他们会将每个样本放入一个分辨率和帧长度均小于或等于该视频特性的桶中。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

Open-Sora 分桶策略

数据收集和预处理流程

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

Open-Sora 数据处理流程

2、Open-Sora 性能全方位评测

视频生成效果展示

Open-Sora最令人瞩目的亮点在于,它能够将你脑中的景象,通过文字描述的方式,捕捉并转化为动人的动态视频。那些在思维中一闪而过的画面和想象,现在得以被永久地记录下来,并与他人分享。在这里,笔者尝试了几种不同的prompt,作为抛砖引玉。

比如,笔者尝试生成了一个在冬季森林里游览的视频。雪刚下不久,松树上挂满了皑皑白雪,暗色的松针和洁白的雪花错落有致,层次分明。

又或者,在一个静谧夜晚中,你身处像无数童话里描绘过黑暗的森林,幽深的湖水在漫天璀璨的星河的照耀下波光粼粼。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

IBM Watson
IBM Watson

IBM Watson文字转语音

下载

在空中俯瞰繁华岛屿的夜景则更是美丽,温暖的黄色灯光和丝带一样的蓝色海水让人一下子就被拉入度假的悠闲时光里。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

城市里的车水马龙,深夜依然亮着灯的高楼大厦和街边小店,又有另一番风味。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

除了风景之外,Open-Sora还能还原各种自然生物。无论是红艳艳的小花:

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

还是慢悠悠扭头的变色龙, Open-Sora都能生成较为真实的视频。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

笔者还尝试了多种prompt测试,还提供了许多生成的视频供大家参考,包括不同内容,不同分辨率,不同长宽比,不同时长。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

笔者还发现,仅需一个简洁的指令,Open-Sora便能生成多分辨率的视频短片,彻底打破创作限制。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

分辨率:16*240p

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

分辨率:32*240p

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

分辨率:64*360p

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

分辨率:480*854p

我们还可以喂给Open-Sora一张静态图片让它生成短片

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

Open-Sora 还可以将两个静态图巧妙地连接起来,轻触下方视频,将带您体验从下午至黄昏的光影变幻,每一帧都是时间的诗篇。

视频详见:https://mp.weixin.qq.com/s/Z88inagkuFn8svLu788TVQ

再比如说我们要对原有视频进行编辑,仅需一个简单的指令,原本明媚的森林便迎来了一场鹅毛大雪。

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

我们也能让Open-Sora 生成高清的图片

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

值得注意的是,Open-Sora的模型权重已经完全免费公开在他们的开源社区上,不妨下载下来试一下。由于他们还支持视频拼接功能,这意味着你完全有机会免费创作出一段带有故事性的小短片,将你的创意带入现实。

权重下载地址:https://github.com/hpcaitech/Open-Sora

当前局限与未来计划

尽管在复现类Sora文生视频模型的工作方面取得了不错的进展,但作者团队也谦逊地指出,当前生成的视频在多个方面仍有待改进:包括生成过程中的噪声问题、时间一致性的缺失、人物生成质量不佳以及美学评分较低。对于这些挑战,作者团队表示,他们将在下一版本的开发中优先解决,以期望达到更高的视频生成标准,感兴趣的朋友不妨持续关注一下。我们期待Open-Sora社区带给我们的下一次惊喜。

开源地址:https://github.com/hpcaitech/Open-Sora

参考文献:

[1] https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md

[2] Tay, Yi, et al. "Ul2: Unifying language learning paradigms." arXiv preprint arXiv:2205.05131(2022).

[3] https://openai.com/research/video-generation-models-as-world-simulators

Open-Sora 全面开源升级:支持单镜头 16s 视频生成和 720p 分辨率

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4061

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2902

2024.08.16

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

22

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

48

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

93

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

216

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

413

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

143

2026.03.04

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

221

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 4.1万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.6万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 94人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号