我所有的文章首先发布在我的Substack《调解人》上。这篇文章一周前在我的_《调解人》上发布。
免费注册 点击这里 免费注册,即可同步通过邮箱收到《调解人》邮件通讯!
Midjourney提示:‘一个代表无限循环电影的抽象图像,没有开头也没有结尾。’
二十年前,我写了一份研究报告,论证互联网视频不会对传统电视构成威胁。这份报告不仅错误,还缺乏想象力。它将互联网简单地看作是传输有线电视节目的一种新方式。我没有预料到互联网会催生新的视频形式,特别是社交视频和直播,这些现在在美国的视频观看时间中占约25%。
今天的好莱坞,人们讨论GenAI时,主要关注如何利用它来更高效地制作电影和电视节目。
这些都是重要的且合理的问题,但它们都缺乏同样的想象力。它们假设生成AI视频的主要用途是用新方法制作旧内容。随着时间的推移,所有新的媒体都会超越对旧形式的简单模仿。创作者逐渐理解新媒介的独特属性,并利用它来创造全新的东西。同样的情况也将发生在生成AI视频上。
准确预测技术如何演变以及消费者会喜欢什么是很困难的。这需要时间来了解。但是,通过研究AI视频模型的独特特性,我们可以做出一些合理的猜测。
长了没看:
2005年,我在美银证券负责覆盖美国的有线、卫星和娱乐股票。一些投资者开始担心互联网交付的电视,即当时的IPTV或称“互联网绕过”,会对我所覆盖的有线和卫星电视提供商,如康卡斯特和DirecTV,构成新的竞争威胁。(当时还没有流行的术语"OTT"和“流媒体视频”。)
我写了一份报告,认为IPTV(互联网协议电视)不会威胁电视行业。看看图1,你会发现其中的逻辑漏洞。
图1. 错得一塌糊涂
来源:美国银行证券.
除了错误之外,这种分析还缺乏想象力。我将“互联网视频”视为仅是一种传输有线电视节目包的新方式。我认为互联网对视频业务的影响非常有限,这样的观点过于狭隘。我没有预料到一些小的事情,比如:
换句话说,我是以一种 skeuomorphic 的方式在考虑网路影片。
克里斯·迪克森,a16z的普通合伙人,经常讨论skeuomorphism 概念在技术领域中的应用。他认为新技术的初期应用往往是简单模仿前一代技术的应用方式。
skeuomorphism(即保留旧形式特征的现象)在媒体中非常普遍。最早的广播节目是歌舞表演的现场转播;最早的电视节目是舞台剧的电视转播;最早的视频游戏是模拟游戏,类似体育或棋盘游戏;最初的网页只是静态的文本内容,就像报纸或杂志一样。如前所述,我将互联网视作新的电视网络传输方式的想法也是 skeuomorphic。
1964年,马歇尔·麦克卢汉在《理解媒介:人的延伸》一书中写道:“媒介即信息。”他的意思是,每一种媒介都有其独特的属性,这些属性不仅影响内容,还影响其感知方式,并且这种影响是特定于该媒介的。然而,对于新的媒介来说,创作者们需要一段时间才能搞清楚这一点。最终,他们会超越模仿旧形式的阶段,利用这些独特属性创造全新的形式。
正如预料的那样,迄今为止大多数关于“AI视频”的讨论都表现出 skeuomorphic (skeuomorphic) 思维方式——即讨论的是GenAI将如何以及在多大程度上用于更高效地制作电影和电视节目。
我也确实有这个罪名。在过去几年里,我一直写关于好莱坞将(或不会)如何在其生产工作流程中使用生成型人工智能(GenAI)以降低电视和电影制作的成本的文章(例如《好莱坞中的AI用例》),以及为什么生成型人工智能将降低个人创作者和小团队进入高质量内容创作领域的门槛,从而降低他们的进入门槛,并对好莱坞构成颠覆性的威胁(例如《好莱坞的“颠覆”将如何展开?》)。在好莱坞,人们正在讨论生成型人工智能将如何(或不会)影响工作;何时可以在“最终像素”上从技术和法律上来说可行;它究竟能在多大程度上降低成本;哪些人才会参与;以及观众是否会真正接受或拥抱这种技术。
这些都是重要且合理的议题(我希望是这样,因为我写到了它们),但它们却有着同样的想象力不足的问题。它们假设生成式AI的主要应用将是用新的方式制造同样的旧东西。然而,就像所有其他新媒体一样,生成式AI也将使创作者能够创作出新的东西和新的方式。
大多数关于生成式AI的视频讨论都假设它只是以新方式制作旧内容。那么,它能做哪些全新的事情吗?
skeuomorphic这个词并没有一个公认的反义词,最近我和Intelligent Jello的作者Mike Gioia讨论了skeuomorphism,他提出了一个词叫做“neumorphic”。我觉得不错。
那么,生成式AI视频的“新拟态风格”应用有哪些?
有几个需要注意的地方关于回答这个问题。首先,显然无法给出一个确切的答案。回顾互联网如何改变了视频行业——包括社交视频和直播的崛起——显然,人们无法预测新技术将带来哪些新的应用场景或方式,或者消费者会接受哪些应用。(比如,我在2005年撰写IPTV报告的时候,还没有iPhone,因此可以说真正的移动互联网还不存在;Netflix当时还没有推出流媒体服务;而YouTube才刚刚成立三个月。Twitch则是在2011年才推出。)我特意用了“出现”这个词。这些是复杂的系统,包含许多组成部分,和所有复杂系统一样,它们会产生一些意想不到的结果。
其次,预测技术的未来应用是一条难以捉摸的斜坡。很容易进入科幻领域,例如喷气背包、神经植入物和因尚未犯下的罪行而被捕。这些预测可能相差甚远,几乎与现实无关。它们也常常表现出一种幼稚的技术决定论,即如果某事技术上可行,它就会不可避免地发生。仅仅因为某事可能,消费者未必想要它。
对未来的预测常常带有幼稚的技术决定论色彩,认为只要技术可行,就一定会实现。但实际上,有时候消费者可能并不需要这样的东西。
所以在深入之前,我想先做一些假设:
考虑到这些保留意见和假设,让我们探索生成式AI的独特特点,并推测可能出现的“新朦胧风格”应用。
最显而易见的区别在于生成式AI视频与传统制作技术的成本差异。正如我在《好莱坞中的AI用例》中所述,一部大片的幕后制作和后期制作成本大约是每分钟1到2百万美元(即除了导演、剧集主管和顶级演员等一线人才外的所有成本)。随着GenAI技术的不断进步,这些成本最终可能与计算成本相接近,也就是每分钟的成本支出——低出四到五个数量级。这将使内容量激增,内容质量不再受限于资源的获取,而是仅受限于创作者的技艺、创意和投入程度。
随着时间的推移,非直接计入的生产成本可能会与计算成本趋于一致,比现在的水平低四到五个数量级之低。
当然,这一直是关于生成式AI的影响的主要讨论点,即它降低成本和减少劳动需求的能力。这也是我为何认为生成式AI可能对好莱坞造成巨大冲击的主要论点。但这些大幅降低的成本还有其他方面的影响。
更易得的视频粉丝创作可能意味着:花在看视频上的时间会越来越多地与花在制作视频上的时间争夺,两者之间的界限也可能越来越模糊。
GenAI视频和传统制作之间另一个根本区别在于其动态变化的能力。传统上,当一集电视剧或电影完成之后,它是“定版”的,不会被修改。GenAI使得视频可以不断调整。随着模型的进步和计算能力的提升,最终将可以实现视频的实时渲染。
视频是“可变的”,而静态内容则不可变,今天要理解这种对比的意义很难。不过这里有一些不互相排斥的建议。
我不太相信人们会每时每刻都想要定制的个性化内容。但某些形式的个性化可能有时会吸引人。
传统的实拍视频是每秒24帧。每一帧的视角由摄影师确定并固定在空间内。
GenAI视频并不限于固定的视角。理论上,它可以在场景的3D空间中采用任何视角。如今,最先进的模型已经对3D空间、时间和运动有了某种感知。随着它们的发展,这种理解将变得更加精细和复杂。例如,Runway正在进行一项研究项目,旨在创建“通用世界模型”来更好地理解和模拟现实世界的物理现象。上个月,人工智能界的“教母”李飞飞宣布了她的新创业公司World Labs,旨在构建具有更高级的空间智能和对世界运作方式的理解的模型。
有了GenAI视频技术,每个人都能成为视频创作者了。
结合上述提到的实时渲染能力,这意味着最终观众可以像置身于场景中一样,从任何角度观看视频。每个人都能成为自己的摄像师。这也意味着观众可以从不同的视角观看同一个叙事,有点像《罗生门》中无限的视角变化。如果空间计算(比如AR、VR和MR)兴起,这种功能将更加重要和相关。
如今,电影和电视不再受物理定律的束缚。缩小模型、绿幕、物理特效及VFX技术让不可能的事物得以呈现。然而,这些操作既耗时又昂贵,而且受到人类想象力的限制。因为我们生活在物理定律严苛的世界里——甚至在我们理解语言之前,我们已经本能地掌握了这些法则——很难想象那些与现实完全不同的环境。
电影不受物理定律的限制,但它们也受限于我们对物理定律的理解和内化。
GenAI 并不受这些限制。改变物理并不比其他任何提示更昂贵或耗时。GenAI 可以创造具有全新物理法则的替代现实。它可以表示高维空间或非欧几里得几何。我们能否理解这一点是另一回事。它可以创造出违背物理定律的环境,这些环境是自动生成的,而不是显式设计的。结合上述互动性,它可以创造“分形叙事”——在不同层次上展开的故事,让观众可以从任何叙事元素中获得不同的体验。这些都是我们现在难以想象的事情。
以下是一个早期且直接的例子,请看下面的“最难的部分”视频。艺术家保罗·特里洛使用Sora为一对情侣的生活历程实现了“无限缩放”的效果。正如他所说,这种效果“无法通过摄像机拍摄,也无法通过3D动画制作,只能通过这种特定的技术才能实现。”
其中一些内容听起来可能有些超前。正如我在文中提到,我们现在无法预测GenAI技术会如何发展,哪些相关技术会出现,哪些会吸引消费者的注意力,哪些不会。弄清这一切需要时间,而且它几乎肯定将以意想不到的方式发展。但提前思考这些问题是有价值的。
二十年前,我没有意识到互联网不仅仅是一个新的分发媒介,还会创造新的形式。即使是在十年前,也没有人会猜到,北卡罗来纳州格林维尔的一个孩子从卧室里发布的视频最终会成为世界上最著名的名人之一,或者 Mr. Beast 的视频发布后几天内能吸引一亿次观看。没有人会猜到人们会观看别人玩 Minecraft 超过一万亿次的观看次数。也没有人会猜到最流行的 ASMR YouTuber 会有超过三千多万订阅者。但现在这一切都发生了。
在媒体中,消费者的时间和注意力是最稀缺的资源。GenAI视频所带来的新形式必然会争夺这两方面的资源。
主要电影工作室不太可能很快拥抱通用人工智能(GenAI),正如我在《洛杉矶的恐惧、厌恶、炒作与现实》中讨论的那样。这些原因是可以理解的。如果我依然在大型媒体公司工作,我也会担心人才反弹和未解决的法律问题。即便如此,重要的是要理解,GenAI不仅仅是为了降低成本,而是一种新的媒介,将会催生新的形式和内容。在媒体领域,最稀缺的资源是消费者的时间和注意力。这些新形式将不可避免地与这些资源竞争。这对于理解它的人来说是机会,但对于不了解它的人来说则是风险。
我唯一记得的情节就是这样,钱德勒试图通过告诉詹妮斯他要搬到也门来与她分手。
跟每一个看过这个的人一样。