冷静分析炒得火热的Sora

2024年2月15日，Open AI发布了第一款文生视频模型Sora，能够生成一分钟的高保真视频，一石激起千层浪。

Open AI自称Sora是“世界模拟器”。
人们惊呼：“真实世界不再存在。”
马斯克直言：人类认赌服输。
前阿里VP贾扬清评价Sora：真的非常牛。
英伟达高级研究科学家兼人工智能代理负责人Jim Fan认为Sora代表了文本生成视频的 GPT-3 时刻。

Sora到底是什么？相比同类产品如Runway和Pika强在哪？
目前市面上文生视频模型的主流技术路线主要有两种：一种基于Transformer模型的技术路线，即从文本及图像中生成，另一种则是基于扩散模型（Diffusion model），如 Runway。
Sora牛就牛在是融合了两者的Diffusion Transformer模型，通过扩散模型（DALL-E3）和转换器架构（ChatGPT）组合，Sora不用预测序列中的下一个文本，而是预测序列中的下一个“Patch”。
事实上，Sora公布的演示视频最令人印象深刻的特点是逼真地模拟物理世界，视频效果吊打市面上同类产品如Runway和Pika。

2024年2月18日Sora的背后团队再次最新公布新的生成视频作品，这回连同一场景下的多角度机位都出现了。

AI的进化速度远超预期，毋庸置疑，AIGC极具破坏性创新的潜力，现有的产业格局如短视频、广告、游戏、影视行业等产业格局一定会被重塑，首当其冲的是谁？
360董事长周鸿祎点评道：今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但它不一定那么快击败TikTok，更可能成为TikTok的创作工具。此外，他认为，中美两国的人工智能差距在拉大。

从以上网络上摘抄的近乎狂热的介绍和描述中，我们可以冷静的总结出一个结论：Sora的强项是物理写实的模拟再现和构建写实视觉效果的能力，因为现实世界所有的表象，包括光影、物体的运动等等，都是遵循一定的物理定律的，所以可以通过代码捕捉这些规律给人工智能学习使用，因此对于写实风格的视频和图片，Sora就具备了上面所说的破坏性创新的能力，也就具备了一定替代人工的能力。
但是，这也同时暴露了Sora的短板。对于高于甚至是脱离现实物理世界规律，主观审美占主导作用的艺术创作来说，例如印象派绘画作品、抽象派艺术创作、卡通风格的影视动画和游戏作品等等，Sora就会力不从心，甚至是无能为力了。因为这些是不讲道理，只讲感觉的，正所谓只可意会不可言传。
所以，就像我之前发布的一篇《当今的CG人不要过度依赖和“迷信”人工智能！》的文章里所说的一样，人类和艺术家们，无需过度担心自己被完全取代。实际上，机器和程序的运算，永远无法取代人类大脑的艺术创作过程。所以我们只要不放弃提升自己的艺术审美能力和创造能力，我们就将永远是主导的。

大家可以把文章的网址链接分享出去，让更多的艺术家们、cg从业者能理智正确对待，不要被宣传搞的人心惶惶，担心自己将来被机器取代。