1.谈感受：“理解是没有终点的，我们只能无限逼近真相”

“我不觉得他们能有比我更深的认知，都是瞎猜。既然找不到真正的答案，我还不如自己研究。”

甲小姐：到今天为止，你对Sora理解到什么程度？

李志飞：我基本读完了所有Sora相关的论文，对Sora的理解更深了。但理解Sora不是封闭的数学题，现在我们对Sora的理解可能逻辑起点都是错的，是否在某个地方做了隐性假设都不知道。理解是没有终点的，我们只能无限逼近真相。

甲小姐：Sora跟ChatGPT相比，谁给你的震撼更大？

李志飞：从原理突破来说，肯定是ChatGPT，或者说是它背后的GPT。今天，很多人都看过GPT许多相关论文，但还是很难理解大语言模型为啥有思维链（CoT）以及上下文学习（ICL）的能力，这是心智上的冲击。而Sora真正的冲击不在原理突破，因为ChatGPT出现后我们都能预见到AI生成高质量视频是必然的，只是没料到会这么快。Sora的冲击是它生成视频的时长、高质量以及一致性。

甲小姐：Sora在业内引起的反响跟ChatGPT相比，哪个势能更大？

李志飞：ChatGPT在2022年11月底发布，国内23年1月底才开始大规模讨论，2月左右出现创业潮，大概有三四个月的时间大家都非常兴奋，觉都睡不着，Sora肯定没到这种程度。一个重要原因是ChatGPT能直接体验。Sora的下一次高峰可能是OpenAI开放体验的时候，现在降火速度非常快。

甲小姐：有人把Sora类比为GPT-3.5时刻，你认同吗？

李志飞：这完全不对，如果一定要类比，Sora应该是GPT-2到GPT-3的过渡。因为GPT-2跟GPT-3原理上没什么区别，但GPT-3证明了Scaling law（规模法则）在文本数据上work，Sora进一步证明了Transformer和Scaling law在视频上同样能work。

甲小姐：OpenAI没有把Sora开放给大众使用，有没有一种可能是，现在的demo是他们精心筛选的结果，Sora的真实能力远不及此？

李志飞：有可能。除非Meta的LLaMA-3也立马搞一个开源模型，能复现类似Sora的效果，以此证明Transformer和Scaling law确实能在视频生成领域规模化work。

甲小姐：OpenAI可能会在什么时候开放Sora的使用？

李志飞：具体何时不知道，OpenAI的Sora团队已在最新访谈中明确表示不会很快发布。如果Sora要商业可用，除了解决渲染速度、时间、成本等问题外，版权问题也是一个难点。

文本的版权已经被搜索引擎重塑了一遍。2005-2010年，纽约时报等传统媒体不断诉讼谷歌搬运他们的原创内容。经过十几年的博弈，各方对文字内容版权基本形成共识。视频还没有经过这样的洗牌，大家的版权保护意识非常强。Sora要真正开放使用，可能要面临比ChatGPT更大的合规问题。

我猜测OpenAI或许已经用了一些电影、电视剧、游戏以及YouTube的数据。如果只用社会媒体的UGC数据，Sora的生成效果可能根本达不到这个质量。

当然，Sora现在只是学术研究的demo，无法证明OpenAI到底有没有侵权。这也是OpenAI相对于谷歌的优势——他们在合规方面可以更加“野蛮”。

甲小姐：对于国内公司而言，ChatGPT和Sora哪个追赶难度更大？

李志飞：去年和今年情况不太一样。去年国内对大语言模型原理的理解不到位，基础设施也比较差，导致最初的训练效率很低，GPU的利用率也很低。但好处在于，ChatGPT的原理有公开论文，你只要努力看懂就行。

今天我们在基础训练设施方面更成熟，可能只需要去年1/2甚至更少的GPU就能训练出同样的模型。但不好的地方是，Sora的技术细节并未公布，比如它用的编解码器到底是啥？60s的视频是一次成功生成的还是多次调整prompt的结果？60s是一个token sequence还是拆成了多个15s的token sequences？这些细节决定到底能不能复现。

甲小姐：在你眼中，谁有可能最先做出“中国的Sora”？

李志飞：我不知道。这次我没跟任何人聊，就是自己看论文，跟我们的工程师讨论，甚至连硅谷的人都很少聊。我不觉得他们能有比我们更深的认知，大家都是处于同一起跑线瞎猜。X上面那些人的认知、理解跟我们比也没有多大差别。去年ChatGPT出现后，我和业内的高频互动从结果看也对我作用不大。既然找不到真正的答案，我还不如自己研究。

甲小姐：你可以直接找OpenAI的人聊。

李志飞：我懒得找，估计也找不着，OpenAI可能也就10个人做这个项目，再加上保密限制估计也聊不出啥。另外，我们要去实现Sora，并不一定要跟它一模一样，达到类似的效果就可以，那我肯定要有自己的一套理解去做。

甲小姐：你为什么对Sora有如此大的兴趣？

李志飞：一是个人爱好，去年读了不少多模态的论文，但大部分都是小打小闹的demo，各说各的，没啥让人信服的效果，但Sora的效果让我特别好奇到底是怎么做到的。二是我认为出门问问过去做的AIGC产品的终局就是视频生成。比如魔音工坊是为短视频生成配音，奇妙元是生成数字人视频。虽然这些产品现在的用户量和商业化都不错，但如果Sora这种端到端的技术路线成为主流，我们这些产品没有跟上就不会有竞争力了，所以我们必须理解并跟上。

2.谈原理：“如果我是OpenAI，就做纯粹的GPT”

“GPT像人类的‘工笔画’，一笔一笔地画，后一笔依赖于前一笔；Diffusion很像人类的‘泼墨画’，‘一泼即成’，之后在初稿上一遍遍细化，直到最终呈现出一幅高清图像。”

甲小姐：OpenAI发布的Sora技术报告，你最关注哪个部分？

李志飞：最让我困惑的是“时空编码器”，也就是OpenAI怎么把视频数据转成patch。

刚开始我一头雾水，好奇每一步是怎么做的。OpenAI技术报告里也没怎么写，我就把编码器、解码器相关论文都看了一遍，发现其实没那么复杂。

这里的patch就是大家常说的token，数据处理的原子性单位。就像人学知识一样，在一片汪洋大海中，你可能没有头绪，不知道怎么学，但把它分成块，每一块单独突破，肯定简单很多。

甲小姐：概括一下patch的来龙去脉？

李志飞：2021年6月，谷歌推出ViT（Vision Transformer），即用Transformer来做一个图片分类模型，这篇论文最早提出“patch”的概念，每一个patch可以当作一个token，用Transformer把图片转换成tokens。以前做图片分类不是基于token，都是用CNN提取图片feature（特征）。

图片来源：ViT论文

2021年11月，谷歌推出ViViT（Video Vision Transformer，视频ViT）。把ViT从图片拓展到视频，把视频也转换成了tokens。视频增加了时间的维度，这篇论文提出，要从时间和空间的维度同时切块，即时空patch。

图片来源：ViViT论文

2023年7月，谷歌提出NaViT（Native Resolution ViT），可以处理不同分辨率、纵横比的视频数据。

2023年10月，谷歌又推出MAGViT V2（Masked Generative Video Transformer），解决图片和视频联合训练的问题。

强调图片和视频联合训练的原因有二：第一，视频跟文本对齐的数据很少，但图片跟文本对齐的数据很多。第二，图片有很多高分辨率的数据，但视频没有。所以图片跟视频最好在同一空间、同一vocabulary（词汇）中联合训练。

OpenAI可能还大量使用了模型再生数据。Sora技术报告明确说，他们将所有的训练视频与文本对齐，由专门的Dalle-3为之生成相应的captions（说明文字）。

甲小姐：视频数据token化后，在接下来的处理上和文本有什么本质区别？

李志飞：照常理说，时空切片出来了，相当于视频数据已经token化，如果用GPT，那一切都简单了。但大家都猜测OpenAI没有用GPT，而是用了DiT（Diffusion Transformer）或其变体。

类比来看，GPT的核心架构有三大块：编码器（tokenizer）、解码器（De-Tokenizer）和转换器（Transformer）。GPT的过程可抽象为：编码器将数据token化，通过转换器做上下文依赖关系的建模，再由解码器转换为人们熟知的形式。我猜测Sora核心也是这个框架，只是转换器换成了Diffusion。

甲小姐：到底什么是token？

李志飞：Token是模型处理数据的基本单元，有两个方面，一是切分成块，二是分块后把对应的token值量化。

很多人认为token一定是离散的，这是很大的误解。Token的值不一定离散，也可以是连续的。对Transformer来说也是如此，只要分块就可以了，它既可以处理连续值也可以处理离散值的分块。

文本模型通常使用离散表示，因为文本是天然离散的（文本是由字符或词构成的字符串），OpenAI用的DiT不需要将token值离散化，模型学的是不同连续值之间的关系。所以他们用的编解码器引用了VAE（Variational Autoencoder，变分自编码器），而不是VQ-VAE（Vector Quantization，向量量化）。

Token值的离散和连续关系到模型学习的颗粒度，Tokenize都是为了找到最合适的、最能表示原始数据的学习颗粒度。假设token值的范围是0-100，如果token量化后以1为单位，就只有101个整数值（vocabulary的大小），但如果token值是连续的，那这个值就有无穷种可能。

甲小姐：从思想上看，GPT和DiT的核心区别是什么？

李志飞：GPT像人类的“工笔画”，一笔一笔地画，后一笔依赖于前一笔；Diffusion很像人类的“泼墨画”，“一泼即成”，之后在初稿上一遍遍细化，直到最终呈现出一幅高清图像。

甲小姐：既然都可以“画画”，为什么不用GPT而用Diffusion？

李志飞：说实话，如果我是OpenAI，就做纯粹的GPT，因为GPT擅长捕捉各种依赖关系，包括对长视频一致性很重要的远距离依赖关系。

我认为GPT的成功在于next token prediction，模拟人的思考方式。我觉得GPT也能模拟扩散的生成过程。具体来说，GPT生成一版粗糙的token sequence后，把它放在上下文窗口中再次生成下一版更精细的token sequence，如此反复，GPT也能完成扩散模型的“从粗到细”过程，这其实更像人类作画的方式。

但这对模型的上下文窗口要求很高。比如MAGViT生成2.125秒、帧率为每秒8帧、分辨率为128*128的视频需要1280个token，生成1分钟视频需要3万多个token；实际场景中分辨率和帧率都会更高，生成一分钟视频动不动就要几十万的token。

以前不用GPT是因为模型支持处理的上下文窗口不够长，但这个问题现在已经解决了。如果一切模态的数据都转成token sequence，用Transformer学习它们之间的关系，那就很通用了。大家的注意力可以放在各种模态的Tokenizer以及数据收集上。

甲小姐：既然如此，为什么过去文生图一般选择用Diffusion？

李志飞：我猜测大家选择Diffusion，一是为了降低模型每一次学习的复杂度，二是为了找到正确的模型学习颗粒度。Diffusion把整个生成过程拆分为很多版本，不断加噪、降噪，完成从粗到细的过程，从而生成高分辨率的图片或视频。

加噪、降噪本质是一种模拟人类作画的过程。模型难以学会一次性生成最终版图片，最好有不同清晰度的图片数据用来训练模型，比如第一版用粗略的轮廓图，第二版加入细节线条，第三版加颜色，第四版调整对比度，以此类推。但这些数据很匮乏，于是人为对一张图片加噪，制造不同清晰度的图片数据用于模型训练。降噪的过程则是把文本prompt作为条件，让模型学习不同版本图片之间的关系，进而学会把模糊的图片还原输出最终的高清图。

甲小姐：DiT路线会成为文生视频领域的“大一统范式”吗？

李志飞：之前文生视频有不同路线，有的是U-Net，代表包括SD、Gen-2、Pika等；也有把U-Net换成Transformer的，即DiT（Diffusion Transformer），Sora就是这条路。

我认为把U-Net换成Transformer应该是共识。Transformer更加scalable，最终可能会遵循Scaling law；而且，大家花了大量精力和金钱优化Transformer的工具链，各种论文也特别多，现在研究U-Net的人少了。

但是否一定要用Diffusion？我认为不一定。我个人觉得用GPT把语言和视觉等模态统一处理更好。

目前还处于技术早期、没有收敛，各种视频相关模型的分类或讲法比较混乱。我一直说OpenAI“狡猾”，他们的技术报告只是很笼统地引用了几篇谷歌的文章，但没说到底用了什么，怎么用的，以及做了哪些创新，感觉OpenAI在隐藏一些东西，你不知道他到底用了什么。

甲小姐：OpenAI的技术报告中强调了模型处理可变时长、分辨率、宽高比数据的能力，这些问题为什么重要？有多难？

李志飞：自然界能收集到的图像数据有各种格式，比如不同分辨率，不同纵横比、不同时长。但以前学术研究为了简单，一般先把各种格式转换成一个固定格式。这相当于模型还没开始训练，在数据处理环节就丢失了很多信息。

处理各种格式并不难，只是在学术界看来都是脏活累活，他们可能不愿意干。但如果要做一款面向公众的产品，用户的数据和需求一定是多格式、五花八门的，就必须解决这个问题。

甲小姐：Sora用的很多技术路径都来自谷歌，你认为OpenAI真正的贡献是什么？

李志飞：OpenAI真正的原创贡献是对Scaling law（规模法则）的信仰和实践。另外，他们把产品目标定义得非常好，比如说，别人都是生成几秒视频，他们敢于一开始把目标定为生成一分钟视频。如果这个目标实现很好的效果，就能对人产生很大的冲击；也正因为目标定义足够清晰，所以他们能够拆解一系列细分问题，并在文献中找到答案，而不需要每一个地方都自己做研究。

3.谈猜想：“视频生成的任务复杂度不见得比语言模型更大”

“跨模态的知识迁移超级重要。如果语言模型和视频模型能够深度融合，最终可能会实现技术路线的‘大一统’。”

甲小姐：视频生成的算力需求比文本更高吗？

李志飞：我也没有答案。但如果视频模型一定比语言模型的算力需求还多，那我们就不用努力了，因为已经没什么意义了。我之所以努力看论文、想复现，是因为我觉得视频不像大家说的那样需要比文本多很多倍的算力。

甲小姐：Sora的模型规模多大？

李志飞：大家猜测Sora可能只有30亿参数，我也觉得是百亿级别的参数，跟语言模型差了几个数量级。但是，这让我们很困惑：如果要让视频符合物理规律，那模型得有大量的世界知识，但模型又不大，这些知识从哪来呢？

现在大致有两种方法：一种是将语言模型的知识迁移到下游模态中，让视频继承语言模型里海量的常识，这会大大降低对视频数据质量和数量的需求，也会大大降低模型学习的难度；另一种是，只拿文本跟视频的匹配对去训练，这种匹配对含有的文本量很少，与几百万小时的视频相对齐的文本可能只有几百亿token，跟训练语言模型的万亿级别文本差距比较大。

甲小姐：Sora是否是跟ChatGPT结合的模型？

李志飞：我们之前分析得出，Sora跟语言模型没有深度融合，语言模型的世界知识没有有效迁移过来。如果只靠文本跟视频对齐的数据来训练模型，文本数量是非常少的，那么凭什么这个模型能够很好地学到世界知识，同时生成符合世界知识的视频？

我有个猜想：当我们用视频和文本联合训练模型，我们就有可能用比纯语言模型小很多的文本量，学出很好的世界模型。在这个前提下，视频生成的任务复杂度不见得比语言模型更大。

我总结一下，一种方式是纯文本的模型去学世界知识；另外一种是用文本跟视频的对齐去联合学习世界知识。虽然文本数量远小于以前的全文本数据量，但还有大量视频tokenize后的tokens，另外视频模型的参数可能比语言模型小，此消彼长，最后视频模型和纯语言模型的算力需求可能相当。

甲小姐：这个猜想很有意思，有点像小孩子成长的过程，要么死读书，要么一边读书一边在外面实践。

李志飞：核心是grounding（抽象概念和实际的联结）。视频、图片是对文本抽象概念的一种grounding，哪怕你在文本里已经知道物理定义，但如果你没见过图片或视频，你脑海里还是没有特别具象的理解。

甲小姐：OpenAI内部已经开始做知识迁移了吗？

李志飞：我不知道，真的不知道，我再一次说OpenAI很狡猾。

我认为现在视频和文本是比较解耦的关系，GPT和Sora可能还是两个单独的模型，GPT生成文本的embedding（嵌入）只是作为视频生成的一个条件，用来指导视频的生成。

而Google的Gemini和RT-2反而是先把语言模型训练得很大，基于语言模型再加视频、图片和文字的对应关系，再接着往下训练，这样文本知识自然就迁移到下游的多模态任务里——这就是我一直强调的跨模态知识迁移。

比如，如果我们生成一只杯子掉在地板上的视频。今天的大语言模型本身就含有玻璃会碎、水会溅出等常识。如果不继承这些常识，视频生成模型还需要大量类似玻璃掉地的视频数据来训练。此外，语言模型还包含了对其它物理规律（比如声光电、碰撞等）的各种描述，这些知识都可以迁移到下游其它模态模型里。

跨模态的知识迁移超级重要。如果我是OpenAI的工程师，我一定会重点做知识迁移。如果语言模型和视频模型能够深度融合，最终可能会实现技术路线的“大一统”。

4.谈争议：“大家不能对世界模拟器太认真”

“世界模拟器往深了研究是研究物理，然后你可能会变成研究神学。”

甲小姐：Sora发布后你写了一篇文章《为什么说Sora是世界的模拟器？》，现在你对世界模拟器有新思考吗？

李志飞：当时我还没有系统性看论文，还不知道原理，现在我觉得大家不能对世界模拟器太认真。现在大家对世界模拟器想太多了。世界模拟器往深了研究是研究物理，然后你可能会变成研究神学。（笑）

甲小姐：工程师就是有“造物”情结。

李志飞：如果一直往下思考，你会进入一个很难具象的讨论，每个人都有自己的理解。上次有个活动在讨论Sora到底是不是世界模拟器，各说各的，没有一个具象的讨论基础，听得我都快睡着了。我现在一门心思只想知道Sora到底是怎么做到的，以及我该怎么复现Sora。

甲小姐：如果一定要回答，那你觉得Sora是否学会了世界模型？

李志飞：如果你期望Sora学会了很多物理现象背后精准的数学公式（所谓解析解），比如说F = ma，V_t = V_0 + a*t，那Sora大概率没有学会世界模型，甚至永远都没法靠数据驱动学会。

如果你接受Sora学会很多物理现象展示的输入和输出的近似关系（所谓数值解），而且参数的数量远超精准数学公式里的参数个数，那么Sora大概率学会了世界模型，就算现在还没有“学会”，很快随着模型的scale up也能学会。

这就像ChatGPT可能学会了词性，但它学会的词性个数和颗粒度跟语言学家定义的可能很不一致。某种程度，我认为ChatGPT的词性定义可能更合理、更符合语言的规律。

甲小姐：你到底相信哪一种？

李志飞：相信第一种的“没学会”和第二种的“学会”本质不冲突，就看你是否抱着一种开放的心态，是否接受AI可以有跟人类不一样的世界观。如果你自负地认为人类总结的物理规律就是“伟光正”，那当我没说。

而且，就算Sora学会了世界的数值解，也只是人类观察到的世界，这个世界是“真”的吗？是不是模拟出来的？那什么是“真实”世界？你看，我们进入了讨论神学的境界。（笑）

甲小姐：大家对世界模拟器的期待或许并不在于它理解所有因果关系，而是好奇沿着暴力美学的路径，能否实现用AI将整个物理世界数字化，继而演绎真实世界的可能性，这样人类可以从中选取最优解。例如工业界能够降低试错成本，科学界可以通过暴力美学发现未知的科学现象。

李志飞：我们要定义清楚什么是世界模拟。如果从人的视角看，科学、工业都是人占主导，自然界只是配合，只要是人工的，由于我相信AGI会大概率超越人类，所以我相信AI能模拟和预测世界。如果从上帝视角看，世界还有很多事情是自然占主导，人类只是配角。比如灾难、风雨电雷以及各种未知的自然现象，人对这些问题无能为力，这个世界的90%，我们人类可能都没见过，我们凭什么去模拟它？除非上帝的规则很简单。

甲小姐：要做世界模拟器要解决幻觉问题，60秒的视频里面任何一帧违反了力学或者光学定律就会不真实。假设幻觉问题始终解决不了，Sora的应用范围是不是就被锁在“文艺工作者”这个角色里了？

李志飞：我认为终局不是两极分化的。幻觉问题百分之百不能彻底解决的。联结主义的核心就是“打碎重来”，一定会产生幻觉，这是它的feature，是它的基因。不像符号主义，只组合，不“打碎”，所以不会产生太多幻觉。

ChatGPT和Sora虽然不能生成没有任何差错的世界，但并不代表它不能对世界模拟做出很多贡献。比如自动驾驶，我们可以用Sora生成很多以前根本搞不定的corner case，帮自动驾驶收集数据。

甲小姐：现在我给Sora提出同样的问题，它给我的答案“可重现”吗？

李志飞：训练模型的过程在采样、加噪、降噪、预测环节都有很多随机变量，如果要复现一模一样的视频，你只能把第一次采样的随机变量记下来，重现时不要再随机产生。但重现本身没有意义，模型不是这么玩的，你重现这个视频的生成还不如直接copy原来的视频。

5.谈竞争：“人才密度太高对大公司反而是问题”

“OpenAI一周就搞定的事情，他们可能两个月都搞不定。”

甲小姐：为什么很多人在谷歌没有做出ChatGPT、Sora这样惊艳的产品，到了OpenAI就能做到？

李志飞：OpenAI使用的很多技术是谷歌之前做出来的工作，但很多都是学术论文，不是完整的工程系统，更别说产品了，只是个半吊子。

我之前也很困惑，我每次都觉得谷歌应该能跟得上，至少不会被OpenAI碾压，但这次在视频模型上又被OpenAI打得完全找不到牙。很多人把OpenAI的成功归因于它有很多天才，哪有那么多天才？你看一看谷歌团队的简历，哪个比OpenAI差？

但谷歌内部组织的复杂性和政治正确的文化，让他们很难做出好的生成式产品。

写论文或做算法是小规模协作，可能顶多10个人，大家志同道合，就能做出一个原型系统，对组织力要求不高。但如果要面向公众发布一款生成式AI产品就非常难。生成式AI产品本身就有很大争议性，比如Deepfake（人工智能深伪技术）等隐患对大众追求的确定性有很大的冲击。

谷歌作为公众公司，从算法原型到产品上线有难以跨越的鸿沟。具体来说，Google的算法团队Google Research和DeepMind都没有自己直接掌控的产品。如果要做新产品，谷歌CEO又不强势，二十多万人的公司，谁来own视频生成这类全新产品就成了巨大的难题。产品要上线就更难了，研发、PR、市场、合规等各部门都有自己的考虑。大公司确实应该考虑这些，但这会让内部消耗很大。OpenAI一周就搞定的事情，他们可能两个月都搞不定。

甲小姐：这是否是所有公众公司都面临的问题？

李志飞：美国大公司都存在这些问题，谷歌尤其典型。

因为谷歌人才密度太高，同一个研究方向有很多算法研究员和工程师，他们也会相互抢项目。你看过去几个月谷歌已经发布了好几个视频相关的模型，比如Gemini、VideoPoet、Lumiere等。这会让产品团队很困惑自己到底该用哪个模型。同一个方向，由于人才太多，他们算法团队可能有五六个，产品团队也有五六个，你可以算一下能产生多少交叉组合。

另外，工程师文化很理性，想抢到项目就要证明“我的模型比你好”——这本身就是一件巨复杂、巨耗时间的事情。

我听说谷歌有团队去年本来做了视频生成模型，差不多就要集成到YouTube，但另外一个视频生成模型的团队负责人听到消息，就去和YouTube说应该用他们的模型。产品部门一方面迫于大佬的压力，另一方面也想看看到底谁更好，就开始评估。大家都说自己好，用自己的数据、benchmark跑一通，谁也说服不了谁，最后只能请外部团队来评估，又要搞一堆事，几个月又过去了。

坦白讲，很多时候模型之间不会有太大差别，可能我今天比你差一点，我改一改，效果又跟你差不多了，就跟国内to B企业去竞标一样。很多最后都是靠关系或者低价取胜，而不是靠技术。To B项目竞标折腾下来要大几个月，谷歌内部产品可能也类似。到最后大家看产品上线无望，干脆离开，人才可能都被挖走了。

由于谷歌人才密度太高，我一直认为谷歌应该把算法团队拆成“开源模型、内部产品模型、前沿研究模型”三大块，各自有所侧重——开源更多面向开发者，要做得更通用、更轻量级，有更多工具链；内部产品模型团队则面向用户，相对to C，主要指标就是用户体验；前沿研究团队可以多花精力研究新算法。在人才等资源充分情况下，分开或许反而使每个项目都有ownership（主人翁意识），也有清晰的方向，不会一片混沌。

6.谈应用：“模型应用的最终形态一定是视频生成”

“很多人老说开源‘套壳’，那都是不懂的人在瞎掰——你为什么要花大量时间、金钱和精力重新造个轮子，还不如别人的好？”

甲小姐：去年你曾说王慧文官宣的动作是想“吓退”其他人，但今年大家好像都没有被“吓退”，反而对复现Sora都很有信心。

李志飞：作为初创公司，更多是从融资方面被“吓退”。比如说做语言模型，很多人的投入可能是我们的10倍甚至50倍，我们也没融资。一年下来，我们除了少烧几个亿外，语言模型的认知或实践也不见得就比同行差。我有种感觉，受限的资源更能做出创新。

甲小姐：对于复现Sora，你已经有信心了吗？

李志飞：理论上是的，但真正要复现还需要很多细节，可能一个超参数就决定了能否生成高质量视频。这更多是我们工程师要干的活，他们要做各种实验，我只是抓住大的方向。

我给内部团队打气，说我们是少有的既懂语言模型、又有视频应用用户和数据的公司，所以我们有潜力做出好的视频模型。

但是，从公司投入上看，我们百分之百不可能像OpenAI那样做，因为我们没法那样烧钱，也不想那么做。就像去年2月追赶ChatGPT一样，我跟人说复现ChatGPT可能有“乞丐版”搞法。后来开源的LLaMA出来后，确实成就了很多“乞丐版”的ChatGPT。

很多人老说开源“套壳”，那都是不懂的人在瞎掰——你为什么要花大量时间、金钱和精力重新造个轮子，还不如别人的好？我觉得核心是弄懂开源背后的细节，能在它基础上做创新。

甲小姐：谁最可能做出“乞丐版”Sora？

李志飞：如果我是Meta的LLaMA开源团队，我必须搞。因为即使是做语言模型，要达到所谓的AGI水平，必须要有视频的模态。某种意义上，能解决视频的“生成”，“理解”自然就解决了。

甲小姐：为什么生成解决了，理解就解决了？

李志飞：以语言为例，以前文本的理解是专门训练模型做情感分类、画语法树、做词性分析，都是单独做理解任务。但ChatGPT基于prompt的接口方式，一个生成模型把所有的理解任务都cover了。从原理上看，我相信只要你能回答出针对性的问题，就算是理解了，就像考试会出很多题目考我们对知识的理解一样。

甲小姐：我认可生成是证明理解最好的方式。某种意义上，我们对于“理解”的定义本来就很模糊，但“生成”清晰得多。“理解”是内化，“生成”是外化。

李志飞：没错。而且，生成是用户能直接感受到的，更容易商业化。比如，语音识别是理解，很难商业化；但语音生成的商业化就更容易，我们的魔音工坊商业化就比较成功，因为用户能感知到。

甲小姐：你对要做的产品有定义了吗？

李志飞：我还没有考虑到视频的产品形态那一层，更多是先解决技术疑问。感觉Sora现在还不是产品，它没有应用场景。我们只是在尽量让我们的视频生成模型接近Sora的效果。视频生成有很多路径，Sora实现了最彻底的端到端生成，而且很通用。

从产品角度来说，我们做模型的终局就是视频生成，而且我们更关注短视频。但以前我也下不了决心，很难想象有一天能够端到端生成高质量的视频，但Sora让我们看到了希望。以前我也看过相关论文，但没有系统研究过他们之间的关系。Sora的技术报告把32篇论文串联在一起，我只用努力把这32篇论文理解清楚就有了个大概思路。

7.谈终局：“我们正在接近大一统，接近智能的本质”

“从应用角度，视频是终局，语言不是最重要的，而且光有语言也意义不大。”

甲小姐：2024年有哪些看点？

李志飞：第一，大家什么时候能用上Sora；第二，谁能复现Sora，最好是以开源的形式；第三，谷歌能不能在视频生成产品层面有不一样的表现。对谷歌我现在比较悲观，觉得他们可能又会发个论文，说可以生成5分钟的长视频，在一些榜单上比Sora表现得更好，但可能就是没有一个真正能打的产品。

甲小姐：国内已经有团队说自己复现了Sora。

李志飞：这种挺没意思的，有篇文章写清华一个团队说他们做的比DiT早。首先我根本不在意DiT，难点根本不在于把U-Net换成Transformer，而在于怎么在工程上真正做到scale up，提升生成质量，以及怎么从图片拓展到视频的时空建模。

从实验的角度来说， DiT的数据规模很小，国内好像对DiT比较在意，网上都在说DiT，很少有人仔细分析Sora的内部原理。我认为DiT没那么重要。从复现角度来说，它可能是最容易理解、也最容易被复现的部分。

甲小姐：每一位AI从业者此时可能都站在一个十字路口，下一步是去做文生视频、具身智能、Agent还是其他……爆点层出不穷，哪条道路是“主路”，你有建议吗？

李志飞：不同角度肯定有不一样的思考。我永远都是用最简单的“技术-产品-商业化”三个层面思考。我认为从产品和应用角度来看，视频是终局，语言模型不是最重要的，或者说光有语言是远远不够的。

甲小姐：有人认为“语言就是一切”，LLM以文本的单模态就能实现AGI。

李志飞：从纯技术角度我认同语言模型的重要性，语言是认知，图片、视觉、动作是感知，认知模型最难，机器学会了认知，再学感知就容易多了。但AI很大的价值就是代替人类的繁琐工作，而社会上绝大多数人不靠语言代表的认知赚钱，而是靠感知。你不能说环卫工人主要是靠认知赚钱，认知是这个工种的基础，但能赚钱的还是“扫地”这个感知的技能。

所以，语言代表的认知是基础和起点，声音、图片、视频、动作代表的感知才是应用的闭环。从最终的产品形态来看，只有语言认知意义不大。

对模型层来说，确实要想视频怎么做，和语言模型有什么关系；对产品端来说，以前视频生成更多基于模板，现在Sora实现端到端生成，以前的产品也许就会被淘汰——原来的技术路线不升级，产品就没有竞争力，可能就是“死路一条”。这也是我为啥这么关心Sora的原因之一，我担心我们现有产品会死。当然，淘汰的过程不会太快，还有成本、版权等问题。Sora完全淘汰上一代视频生成产品，可能至少还要一两年。

甲小姐：2024年还会是OpenAI一家独大吗？

李志飞：我没法直接给你答案，还得看Sora开放体验后，产品能否真正达到demo的效果。如果Sora的demo就是真正的产品能力，那我真的不知道谷歌什么时候能跟上，肯定比追ChatGPT更难。

甲小姐：目前你已经拼出完整的Sora原理版图了吗？

李志飞：我的结论只是基于论文，其实真正理解Sora的是一线工程师，因为我没有看源代码。最终的本质是代码，就像要理解这个世界就得拿到上帝的源代码。如果工程师除了看源代码外还具备抽象思维，比如想清数据和算法代码之间的关系，他们就是最理解Sora原理的人。但很多一线工程师对抽象问题没兴趣，更多是拿着别人的东西改代码，不愿真正理解背后的思想。

甲小姐：OpenAI内部做AGI也会有团队分工，有点像盲人摸象，每人做一块，很难有人真正上升维度在抽象意义层面思考全局。

李志飞：以前这个人是Ilya（Ilya Sutskever，OpenAI 联合创始人兼首席科学家），现在他可能被边缘化了。

甲小姐：现在AGI真正的源代码或许还分散在各位一线工程师的脑子里？如果有一位产品经理从上帝视角抽象出整个原理版图，现在我们对AI的理解或许会更深刻。

李志飞：很多时候工程师没精力思考抽象问题，他们忙于调参数搞数据。但你要相信，和10年前相比，我们已经越来越接近智能的真相了。以前视觉、图片、声音、语言，都是完全不同工种的人通过不同方式在做，现在我们越来越接近大一统，接近智能的本质。

3973
0
0
0

0/140 提交