昆仑万维开源SkyReels-V2:首创扩散强迫框架

昆仑万维开源SkyReels-V2:首创扩散强迫框架,实现无限时长电影级视频生成

科技讯(作者/于雷)4月21日,昆仑万维旗下SkyReels团队今日宣布正式发布并开源了视频生成模型SkyReels-V2,这款模型被团队称为全球首个采用的扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型。通过集成多模态大语言模型、多阶段预训练、强化学习和扩散强迫等技术,SkyReels-V2在提示词遵循、视觉质量、运动动态以及视频时长等方面实现了明显的突破。

昆仑万维开源SkyReels-V2:首创扩散强迫框架,实现无限时长电影级视频生成

据介绍,当前业界视频生成技术尽管已取得长足进步,但仍面临多项挑战:在确保高质量视觉呈现的同时往往牺牲流畅度,为实现高分辨率而限制视频时长,且由于现有多模态大模型对电影语法理解不足,导致缺乏专业的镜头感知生成能力。针对这些痛点,SkyReels-V2展现出独特优势,目前已支持生成30-40秒的高运动质量、高一致性、高真实感视频。

技术层面,SkyReels-V2整合了多项创新方案:团队开发的SkyCaptioner-V1视频理解模型能够准确识别视频中的主要人物、表情和动作等信息,并通过人工标注和模型训练来提升镜头语言理解的能力;为了优化运动质量,团队采用强化学习训练,设计了半自动数据收集管道,以高效生成偏好对比数据;为实现长视频生成,研发团队提出了一种扩散强迫后训练方法,通过非递减噪声时间表将连续帧的去噪时间表搜索空间大幅降低。

昆仑万维团队构建了SkyReels-Bench评估基准,并leveraging开源V-Bench实现自动化评估。评估结果显示,在VBench1.0中,SkyReels-V2获得了83.9%的总分和84.7%的质量分,远远超过了包括华为轩辕视频模型在内的所有对比模型。

在应用场景中,SkyReels-V2支持四大核心功能:基于滑动窗口方法的理论无限时长故事视频生成;两种图像到视频合成方案,分别为微调全序列T2V扩散模型和扩散强迫模型与帧条件结合,以实现更加逼真的视频效果;通过专门筛选百万级样本优化的摄像导演功能,确保视频的拍摄工作流程更加高效和准确;以及基于SkyReels-V2基座模型研发的SkyReels-A2多元素到视频生成方案,提供了广泛的創造可能性。

值得一提的是,昆仑万维SkyReels团队宣布将SkyCaptioner-V1和SkyReels-V2系列模型(包括1.3B、5B、14B多种尺寸)全面开源,涵盖扩散强迫、文本到视频、图像到视频、摄像导演和元素到视频等模型,这一举动旨在推动学术界和产业界更好地探索视频生成技术的应用前景。

 分享

本文由网络整理 © 版权归原作者所有

共  条评论

评论

  •  主题颜色

    • 橘色
    • 绿色
    • 蓝色
    • 粉色
    • 红色
    • 金色
  • 扫码用手机访问

© 2025 www.trjyy.com  E-Mail:[email protected]  

观看记录