你的位置:南汇压力容器厂有限公司 > 科技创新 > 超越Sora极限,120秒超长AI视频模型诞生

超越Sora极限,120秒超长AI视频模型诞生

时间:2024-03-29 01:52 点击:119 次

首页--和记官网|和记AG|和记app

Sora一出,文生视频的在长度这个指标上就卷的没边了。

从Pika和Runway的4秒,到VideoPoet的理论无限长,各个团队都在通过各种不同的技术路径不断延长视频生成长度的上限。

最近,来自Picsart AI Research,UT Austin和Shi Labs的研究团队提出了一个新的文生视频技术——StreamingT2,可以生成高度一致而且长度可扩展的视频。

文生视频技术进入长视频时代。

论文地址:https://arxiv.org/abs/2403.14773

具体来说,StreamingT2V可以生成1200帧甚至理论上无限长的长视频,并且能保证视频内容过渡非常自然平滑,内容丰富多样。

超越Sora极限,120秒超长AI视频模型诞生00:0001:55打开新闻客户端 提升3倍流畅度

帝国士兵在烟雾中不停奔跑,虽然动作很滑稽,但是幅度很大,人物一致性很好。

超越Sora极限,120秒超长AI视频模型诞生00:0001:55打开新闻客户端 提升3倍流畅度

它的核心构架由3个部分组成:

- 一个短期记忆单元——条件注意力模块(CAM),它能够确保视频的连贯性,通过关注前一个视频片段的特征来引导当前片段的生成;

- 一个长期记忆单元——外观保持模块,它帮助模型记住视频开头的场景和对象,防止随着时间推移而遗忘开头的场景;

- 一种随机混合技术,使得即使是无限长的视频也能保持一致性,避免了视频片段之间的不协调。

而且,StreamingT2V的特点并不限定于使用特定的文生视频模型。

这意味着只要将基础模型的性能不断提高,生成的视频效果还能不断提升。

效果展示

1200帧,2分钟

超越Sora极限,120秒超长AI视频模型诞生00:0001:55打开新闻客户端 提升3倍流畅度

可以看到,在两分钟的视频中场景的动态效果很好,虽然在细微材质上还是有一些粗糙和畸变,但是整体的运动幅度基本上已经达到了Sora的水准。

超越Sora极限,120秒超长AI视频模型诞生00:0001:55打开新闻客户端 提升3倍流畅度

和其他的「长」视频AI技术相比,StreamingT2V的动态效果明显好太多了。

首先是教培是一种为教育提供服务的行业,教培从它产生的那一天起就是承担为教育服务的使命。但是在后来的发展中出现了这样或那样令人失望的事情,让这一行业处于风口浪尖之上,成为后来被整治与规范的对象。由此可以看出,教培行业的重启是为了更好地为学生与市场服务的。例如新东方教育正在重新启动,重新招收员工与学员,以新东方为代表的整个教培业曾经创造了每年5000亿的辉煌成绩。面对未来的发展将以更加优良的成绩来助力教育的发展与繁荣。

一、登录中国教育考试网(http://cet.neea.edu.cn/cet)查询。

600帧 1分钟

超越Sora极限,120秒超长AI视频模型诞生00:0000:58打开新闻客户端 提升3倍流畅度

整个镜头的晃动感有一种手持摄影机拍摄的风格,而且鸟的动作细节也很真实。

超越Sora极限,120秒超长AI视频模型诞生00:0001:00打开新闻客户端 提升3倍流畅度

蜜蜂在花上的运动效果也很逼真,镜头运动幅度和动作幅度都很大,而且蜜蜂形态的一致性保持得也很好。

超越Sora极限,120秒超长AI视频模型诞生00:0000:58打开新闻客户端 提升3倍流畅度

航拍镜头的运动也很合理,只是场景中的大面积的植物颜色和细节还是不太稳定。

超越Sora极限,120秒超长AI视频模型诞生00:0001:00打开新闻客户端 提升3倍流畅度

虽然珊瑚还是会出现无中生有的情况,但是镜头运动的幅度和场景整体的一致性已经非常高了。

超越Sora极限,120秒超长AI视频模型诞生00:0001:55打开新闻客户端 提升3倍流畅度

240帧,24秒

而这个圣诞老人虽然动作显得非常鬼畜滑稽,但是一致性保持得非常好,动作幅度更是吊打大部分的文生视频模型。

对于爆炸和烟雾的处理也已经非常成熟,逼真了。

开花的动态效果非常自然,已经可以以假乱真真实的加速播放的静物运动摄影了。

80帧,8秒

在时间更短的的视频中,无论是内容的一致性和动作的自然程度和动作幅度效果都很好。

只是在场景和环境的表现上,还有一些明显的瑕疵。

实现方法

StreamingT2V技术的工作流程可以分为三个主要阶段。

首先,在初始化阶段,研究人员利用一个文本到视频的模型来创造出视频的前16帧,这相当于视频的起始段落。

接下来,进入Streaming T2V阶段,研究人员会继续生成视频的后续帧,这一过程是通过一种称为自回归的技术来实现的,意味着每一个新帧的生成都会参考之前已生成的帧,从而确保视频内容的连贯性。

最后,在Streaming Refinement阶段,研究人员对已生成的长视频(无论是600帧、1200帧还是更多)进行进一步的优化。

在这一阶段,和记官网研究人员采用了一种高分辨率的文本到短视频模型,并结合了研究人员独特的随机混合技术,这样不仅提升了视频的画质,还增强了视频的动态效果和视觉吸引力。

StreamingT2V技术通过引入两个关键模块来增强视频的生成质量。

首先,条件注意力模块(CAM)充当短期记忆,它通过一个特殊的编码器分析前一个视频片段,确保视频的连续性和流畅过渡。这个机制特别适用于动作频繁的视频,使得视频看起来更加自然流畅。

其次,外观保持模块(APM)作为长期记忆,它专注于从视频的某一关键帧中提取重要的视觉特征,并将这些特征贯穿整个视频生成过程,确保视频中的对象或场景保持一致性和连贯性。

这两个模块的结合,使得StreamingT2V不仅能够生成动态连贯的视频,还能在整个视频中保持高质量的视觉效果。

条件注意力模块

它由一个特征提取器和一个特征注入器组成,并将其注入 Video-LDM UNet。

特征提取器使用帧图像编码器E cond,然后是与 Video-LDM UNet相同的编码器层,直到中间层(并使用UNet的权重初始化)。

在特征注入方面,研究人员让UNet中的每个长程跳转连接通过交叉关注来关注CAM生成的相应特征。

特征提取器使用帧图像编码器E cond,然后是与Video-LDM UNet相同的编码器层,直到中间层(并使用UNet的权重初始化)。

在特征注入方面,研究人员让UNet中的每个长程跳转连接通过交叉关注来关注 CAM 生成的相应特征。

CAM利用前一个分块的最后F个条件帧作为输入。交叉关注可将基础模型的F帧条件化为CAM。相比之下,稀疏编码器使用卷积进行特征注入。

外观保存模块

自回归视频生成器通常会遗忘初始对象和场景特征,从而导致严重的外观变化。

为了解决这个问题,研究人员利用研究人员提出的「外观保存模块」(Appearance Preservation Module,APM),通过利用第一个片段的固定锚帧所包含的信息,将长期记忆纳入其中。这有助于在各代视频块中保持场景和物体特征(见下图6)。

自动回归视频增强

为了进一步提高文本-视频结果的质量和分辨率,研究人员利用高分辨率(1280x720)文本-(短)视频模型(Refiner Video-LDM,见图3)对生成的24帧视频块进行自回归增强。

使用文本到视频模型作为24帧视频块的提炼器/增强器,是通过在输入视频块中添加大量噪声,并使用文本到视频扩散模型进行去噪来实现的。

更确切地说,研究人员使用一个高分辨率文本到视频模型(例如MS-Vid2Vid-XL)和一个24帧的低分辨率视频块,首先将其双线性放大到目标高分辨率。

然后,研究人员使用图像编码器E对帧进行编码,从而得到潜码。然后,研究人员应用T ′ < T前向扩散步骤,使xT′仍然包含信号信息(主要是视频结构信息),并使用高分辨率视频扩散模型对其进行去噪。

评估

在定量评估方面,研究人员采用了一些指标来评估研究人员方法的时间一致性、文本对齐和每帧质量。

在时间一致性方面,研究人员引入了SCuts,即使用PySceneDetect软件包中的AdaptiveDetector算法和默认参数,计算视频中检测到的场景切割次数。

此外,研究人员还提出了一种名为运动感知翘曲误差(MAWE)的新指标,该指标能连贯地评估运动量和翘曲误差,当视频同时表现出一致性和大量运动时,该指标就会产生一个低值。

为此,研究人员使用OFS(光流得分)来测量运动量,它可以计算视频中任意两个连续帧之间所有光流向量的平均值。

此外,对于视频V,研究人员还考虑了平均翘曲误差W(V),该误差测量了从帧到其翘曲后的平均L2像素距离平方。

其中,c对齐了两个指标的不同尺度。为此,研究人员对数据集验证视频的一个子集进行了回归分析,得出c = 9.5。

MAWE要求高运动量和低翘曲误差,以获得较低的指标值。对于涉及光流的指标,计算时将所有视频的大小调整为720×720分辨率。

在视频文本对齐方面,研究人员采用了CLIP文本图像相似度得分(CLIP),它适用于视频的所有帧。CLIP计算视频序列中CLIP文本编码与CLIP图像编码之间的余弦相似度。

对于每个帧的质量,研究人员在视频所有帧的CLIP图像嵌入基础上计算出美学分数。

所有指标都是先按视频计算,然后对所有视频求平均值,所有视频都生成了80帧用于定量分析。

研究人员将StreamingT2V与主流的视频生成模型和构架在这个框架下进行了比较。

可以看到(上图)首页--和记官网|和记AG|和记app,在这个针对时间一致性、文本对齐和每帧质量的测试集上,StreamingT2V的成绩确实是最好的。

p快科技5月12日消息,moto首款AI手机moto X50 Ultra将于5月16日正式发布,数码博主“数码闲聊站”表示,spanstrong新机将由演员迪丽热巴代言。/strong/span/pp据了解,迪丽热巴在4月发布的一组对镜自拍中,将露出的手机进行模糊处理,由此猜测应该正是moto X50 Ultra。/pp align="center"img data-reference="image" src="https://img-s-msn-com.akamaized.net/tenant
国家杜马信息政策委员会:TikTok可能很快返回俄罗斯首页--和记官网|和记AG|和记app 俄联邦国家杜马信息政策委员会副主席安东·戈雷尔金指出,TikTok已经在互联网监管机构俄联邦信息监控局的官方网站上注册公司账户,提交了电子申请表,几乎所有返回俄罗斯的条件都已满足。 陈杰表示首页--和记官网|和记AG|和记app,在中乌元首战略引领下,两国教育合作不断取得丰硕成果。本次论坛旨在落实元首共识,厚积元首会晤教育成果,深化中乌教育合作交流。中乌教育合作高质量发展具有良好基础和条件,中方愿与乌
置身北京的中国非物质文化遗产馆中,观赏工艺美术家的敦煌图案手稿;到刚刚开馆的西藏非物质文化遗产博物馆中,近距离感受绚丽多彩的唐卡、美观实用的织造技艺;在位于江苏的六朝博物馆里,穿着汉服制作一把漂漆扇…… 今年“五一”假期,不仅文旅市场活跃、商圈消费火热,全国各地的非遗展馆也以丰富的活动吸引游客前去体验打卡,享受充满文化底蕴的美好假期时光。携程数据显示,“五一”假期首日,博物馆、主题公园,以及名山大川等户外游受到大众欢迎。博物馆类景区订单同比去年假期首日增长31%。 受访专家认为,旅游已经从单一
“用上这个平台,不仅可以购买景区门票、预约文博场馆,还能实时看到各景区的客流量,真像个‘活导游’。” 5月3日,刘先生与朋友结伴来到苏州游玩,通过扫一扫地铁上的“君到苏州”文化旅游总入口二维码,实现“轻松游苏州”。 据介绍,今年“五一”假期,借助数字化技术打造的“君到苏州”平台,上线英文版海外游客游苏州指南,使到苏州的境外游客可以掌握各类所需便捷工具;上新“图游苏州”板块,游客可以基于当前实时位置,轻松查找导航至周边景点、餐馆、停车场等场所;上线景区高峰预警,实时展示各景区的流量情况,辅助游客
五一假期收官首页--和记官网|和记AG|和记app,欢迎大家回来。 本周,苹果在软件更新方面迎来了一些全新动态。 话不多说,让我们一起来看看。 iOS 17.5Beta 4 首先是苹果在本周三(5 月 1 日)凌晨发布的 iOS 17.5 Beta 4 版更新,版本号为 21F5073b。 以 b 为结尾通常意味着 RC 版将近,考虑到 5 月 7 日的苹果发布会,iOS 17.5 正式版预计也将很快到来。 此前已经更新了 iOS 17 测试版的小伙伴,现在就可以去升级最新的测试版系统了。 想
听说这货是推动绞杀TikTok的背后黑手和记官网 雅各布·赫尔伯格(Jacob Helberg)。此人生于1989年和记官网,几年前还只是谷歌公司的一个政策顾问。雅各布·赫尔贝格创建了一个名叫“国会山和硅谷论坛”的组织,该组织充满了冷战思维,极力渲染中美技术战,鼓吹美国防范和打击中国科技行业发展。 雅各布·赫尔贝格本人是一个同性恋,他的老公叫凯斯·拉布瓦(Keith Rabois),后者跟PayPal联合创始人、硅谷极端反华分子彼得·蒂尔(Peter Thiel)曾在同一时期在斯坦福大学读书。


官网:www.shnhyl.com.cn

关注我们

邮箱:a89dec@qq.com

Powered by 南汇压力容器厂有限公司 RSS地图 HTML地图

Copy My-Web © 2013-2023 版权所有:真心相伴,不离不弃,爱心支持,一路相随,!
南汇压力容器厂有限公司