零门槛解读Sora生成视频为什么牛，普通人可以提前做三点准备

微信邦 · 发表于 2024-2-18 16:47:59

这篇小文是我在得到的“AI 学习圈”产品里的免费日更栏目，每天一篇，从我的角度观察 AI 技术和真实社会落地的进展，介绍好的案例，会不定期挑选更新在这个公众号。

所以如果想每天看的话，可以去下载得到 APP 里找到“AI 学习圈”，嗯，一个年更公众号选手，变成了日更选手了。

过去这两天，我的朋友圈和各个讨论群里，都被OpenAI的Sora刷屏，这次的大招，给了全世界AI爱好者一个迎头暴击，直到现在我的脑袋还在嗡嗡作响。

不过我要提醒的是，现在OpenAI只是放出了一批实验视频和一个简单的研究论文，任何人跟你说他已经用上了 Sora，可以付费教你用Sora生成视频，都是骗子。当然，除非这个人是在OpenAI工作，或者是全球顶尖艺术家。不过这样的人，应该也不稀罕让你微信转他人民币99块。

我到今天才沉下心看完了那篇研究论文，有几点收获跟你分享一下。那篇论文不长，也不复杂，没有公式和复杂的技术原理，我让把全文翻译链接放在最后，建议你看一下，绝对没有我们高中课文的文言文难懂。

我的第一点收获是，Sora这次的效果之所以这么惊艳，并不是因为他们从零开始原创了一个模型，他们采用的还是比较主流的扩散模型。扩散模型，你可以把它简单理解为小镇做题家的刷题模式，首先学习大量的视频数据，在学习的过程中进行理解，当学习的视频足够多，即便看到一道陌生的题目，也还是能顺利关联到之前试题的知识点。与扩散模型对应的，还有GAN对抗模型，你就可以理解成 1 对 1 教学，学生做一道，老师评价和反馈看你做得好不好。

我看到OpenAI的两位科学家，也是Sora的负责人威廉·皮布尔斯和蒂姆·布鲁克斯，发推文说过去一年的劳动终于上线了。这就意味着文生视频这个项目启动已经一年了，Sora已经学习了海量的视频数据。

我想分享的第二点是，你肯定很好奇，如果大家的技术路线一致，那为什么Sora的效果要比同行高出几个层次呢？虽然企业基因论我一直觉得不靠谱，但是如果企业在某些方面曾经成功过，那么在做创新业务时，也会有很多宝贵的内部经验可以利用。

从这篇论文里看出来，Sora完全站在了OpenAI成功产品的肩膀上，往上起跳的。例如OpenAI的ChatGPT背后是个大语言模型，会把一个句子拆成若干个token，可能是一个单词，可能是一个词组，也可能是一个短句。然后通过海量的数据训练，去推测下一个最大概率的token。ChatGPT之前，没有人用这种粗暴的方式大力出奇迹。

但是这次Sora就借鉴了GPT的很多思路，直白点说，就是他们先把很多海量的视频拆成低维的时空块（patch，这个翻译成补丁/视觉块啥的都有，我个人喜欢“时空块”这个名字，听起来有点变形金刚的感觉），然后配合上GPT强大的语言能力，例如给视频块增加和扩充文字描述。当海量的训练视频都用这种时空块统一拆分学习后，来了一条新指令，就可以从不同的时空块里预测和生成新的时空块，最后再利用一个解码模型，把时空块变成生动的视频。

看到这个的时候，我突然想起了三体人，在感知到头顶上的三个太阳导致高温时，三体人可以迅速脱水，排出身体内大部分水分，变成一捆纤维素，像一张皮、一张纸那样，可以卷起来堆放。而当气候环境变好、适宜生存时，三体人将脱水的身体浸泡在水中，就能恢复原样，重新恢复为活生生的三体人。而Sora原理也是这样，把生动的视频压缩成一个个分块来训练，生成的时候先生成分块，最后再注水。

这个原理说起来简单，但是要做起来，如果没有ChatGPT的成功经验，敢于下决心这么来做可不容易。

这个不容易有三个原因，第一个当然是其他公司都没有这么做，没有成功经验就要冒风险。第二个是既然要学习ChatGPT的方式，那很多内部经验也只有在OpenAI里面才能拿到，至少大力出奇迹时可以少走一些坑。第三个是最现实的，要知道GPT4训练一次的成本是6300万美元。那还全是文本，如果是视频数据呢？这训练一次的成本肯定过亿了吧，其他几家竞品就算想到了这个方法，资金实力上也不允许这么直接烧钱。

我想说的第三点是，因为OpenAI有ChatGPT ，那可是历史上最短时间用户量过亿的产品，所以他们对人类语言的理解水平要远远高于其他几家专业的AI视频公司。再加上ChatGPT运行了一年多，输入了各国语言和不同文化背景的用户指令，他们懂得越来越多。

所以在做Sora时，其实会用一个语言模型，先把用户的指令进行扩写和改写，然后再输入到视频模型里。就相当于人类其实给了一个作文题，然后语言模型先写一篇描写场景的小作文，最后Sora根据这篇作文去生成视频。所以细节会比其他AI视频产品强太多。

听到这里，你是不是觉得有点累？觉得跟自己没有太大关系？下面我就说一下，既然Sora大家暂时都用不到，有什么事情是可以提前预习的。

我先给大家念一条Sora的视频生成提示词：“无人机拍摄的海浪拍击大苏尔加雷角海滩崎岖悬崖的景象。蔚蓝的海水激起白色的波浪，夕阳的金色光芒照亮了岩石海岸。远处有一座小岛，岛上有一座灯塔，悬崖边长满了绿色的灌木丛。从公路到海滩的陡峭落差是一项戏剧性的壮举，悬崖边缘伸出海面。这一景观捕捉到了海岸的原始之美和太平洋海岸公路的崎岖景观。”

哪怕没有看到视频，只是听到这段话，是不是脑海里已经出现了一个海边悬崖的波澜壮阔的画面？如果你只是简单写一句“无人机拍一个海边的悬崖，悬崖上有一个灯塔”，我相信出来的视频效果肯定是买家秀和卖家秀的区别。这个视频我也放在文末的链接里了，你可以结合上面的提示词看一下，估计会有更多的收获。

在我看来，不管是文生视频，还是文生图，技术底层关注的是那个“生”字，而我们普通人，需要关注的是那个“文”字。千万不要觉得用AI生成这些东西，必须要学计算机或者理科。很多理科生短板就在表达上，文字指令写不好，出来的图和视频肯定是没有那个意境的。想想看，有文化的你输入一个“大漠孤烟直，长河落日圆”，没文化的我输入一个“沙漠的上空挂一个圆太阳”，估计AI会更容易理解你的需求。

这几天，我发现不少群里都会有朋友感叹“看到这波 AI 发展，真可惜自己是个文科生”，我强烈建议你把所谓的文科生/理科生这种非黑即白的分类抛弃掉，那是你高中高考时的分类方式，不要让 15 岁时的选择成为你一辈子的限制。如果从我的经历来看，我是个典型的理科生，从初三我就知道自己会选择数理化，高一就分班，在河南那种地狱高考难度搏杀出来，大学进的还是物理系。但是这并不影响写作成为我的一个特长。

这波 AI 革命，在我看到最大的好处就是一下子降低了很多专业技能的门槛，让我们每个人都可以发挥自己的长板。

既然知道Sora会带来AI视频的革命，那么我们现在就可以开始做三点准备。

1.持续阅读。

虽然我们不提倡功利化的阅读，但是在阅读的过程中，如果有特别有画面感的文字描述，你完全可以记录下来，作为你笔记里的一个特殊分类，标签就可以叫“这段儿值得变视频”。

举个例子，金庸老先生的小说里，有很多的段落非常有画面感。例如《书剑恩仇录》里陈家洛第一次见到美丽的香香公主的时候，场景是这么描述的：“眼前一片大湖，湖的南端又是一条大瀑布，水花四溅，日光映照，现出一条彩虹，湖周花树参差，杂花红白相间，倒映在碧绿的湖水之中，奇丽莫名。远处是大片青草平原，无边无际的延伸出去，与天相接，草地上几百只白羊在奔跑吃草。草原西端一座高山参天而起，耸入云霄，从山腰起全是皑皑白雪，山腰以下却生满苍翠树木。他凝望湖面，忽见湖水中微微起了一点漪涟，一只洁白如玉的手臂从湖中伸了上来，接着一个湿淋淋的头从水中钻出，一转头，看见了他，一声惊叫，又钻入水中。”

这就是非常好的生成视频指令素材。当你积累了几百条这种场景描述，怎么还会发愁写不出好的指令呢？

2.多看一些经典电影或者剧集。

这个跟多读书的作用类似，但是效果会更加直接明显一些。例如一些电影的精彩镜头，你完全可以通过截屏或者是片段的方式变成自己的素材库，有点儿像积累PPT的模版库。很多PPT新手之所以做得慢，是因为要准备做之前，才开始搜索和下载模板，反复纠结和尝试调整，浪费了宝贵的时间。而一些经常做PPT的高手，自己拥有非常庞大的素材库，从背景图到模板到字体，需要的时候随时调用就好了。

Sora开放的时候，肯定会支持从图片直接变视频，例如你就可以拿一张“阿甘在空旷无人、直通天际的公路上独自奔跑”的图片，让AI给你生成一段视频，把人物换成你，场景换成某个街道。

3.在有余力的情况下，学习一些剪辑/构图的入门技巧

作为普通人，我们不用学习太专业的摄影摄像知识，但是了解一些基础的构图、景别、剪辑等知识，学着用剪映等剪辑软件，把你的日常视频片段尝试剪成一个完整的小短片，会让你在未来指挥AI生成视频时更加得心应手。

既然大家都知道变革已来，咱们别捂眼当看不见，现在就可以想象一下，如果 Sora 开放出来，我们要做的第一个视频是什么。

如果实在没有想法，你把你每天的梦境记录下来，未来试试用 AI 视频成为你朋友圈里的 AI 造梦师，还是挺有意思的。

		自动登录	找回密码
密码			立即注册

零门槛解读Sora生成视频为什么牛，普通人可以提前做三点准备

相关帖子