OpenAI推出了文生视频模型Sora,在科技圈引发热议,其发展速度似乎超越了同行的多个量级。虽然还没有正式对公众开放,但是通过其发布的视频合集可以充分的看出,Sora不仅在生成视频的逼真性方面获得了技术性的突破,在视频时间长度方面也远远的甩开了对手。

Runway在AI视频界有MidJourney之称,可以生成四秒长的视频,其生成的视频可以被用户延长到16秒,这个长度,2023年在AI生成视频界已经是最长的记录了。Pika可生成的视频长度只有三秒,Stable Video可以生成的视频也只有4秒。而Sora可以生成的视频,却长达一分钟,可以算得上是王炸。

Runway在几个月前推出了第2代AI生成视频模型,随后又在今年1月份,推出了多头运动笔刷的功能,让用户可以对ai视频生成中的多个元素的运动进行控制。Runway所提供的视频制作解决方案集合了多种AI工具,因此备受推崇。但是Runway的CEO在Sora发布之后在社交媒体上发布了GameOn这两个字。这两个字充分的表达了AI视频界的比赛开始了。

Stability的创始人,在 OpenAI的CEO山姆奥特曼发布了由Sora所生成的以巫师为主题的视频之后,在社交平台上发文称奥特曼是一位巫师大人。充分的说明了这段视频在AI视频所带来的冲击很大。

Sora在本质上与AI视频生成公司Runway、Pika采用的底层模型是相似的。但是唯一的不同之处在于Sora将其他公司所采用的小模型的思维进行了变化,采用transformer架构替换了U-Net架构。这种新的架构能够将图像和视频通过集合视觉编码的较小数据单元表现出来,然后再将这些内容进行解码,并创造出视频,而且还可以达到大模型智能涌现的能力,明显的将样本的质量提高。

OpenAI最新发布了Sora的研究报告,充分地彰显出来 OpenAI将会使用大模型进行物理世界模拟的雄心。