作者使用DALL-E创建的图片
训练一个大型语言模型可能要花费数百万美元。为什么Meta会花费如此多的钱来训练一个模型,然后免费让所有人使用呢?
本文分析了Meta的生成式AI和大模型策略,以理解他们开源大型模型的考量。我们还讨论了这一波开源模型与传统开源软件的相似之处和不同之处。
免责声明:本文不讨论Llama模型是否真正开源的问题。所有信息均来自公开来源。
专有模型的错觉如果 Meta 开源了它的模型,人们会不会直接自己搭建服务,而不是支付 Meta 提供的服务费用(例如,基于 Llama 的 Meta AI 聊天机器人,或者帮助你微调模型并高效提供服务的 API)?
阻止人们通过将模型保持为专有来构建自己的解决方案只是幻觉。无论你是否开源你的模型,其他人,比如Mistral AI,阿里巴巴,甚至谷歌,都已经开源了他们的模型。
目前,OpenAI、Anthropic 和 Google 还没有开源他们最大的/最好的模型,因为他们仍然认为这些模型在能力和质量方面是开源模型无法达到的。开源他们的模型会损害他们的业务。
除非你的模型比任何其他开源模型好几个数量级,否则你是否开源你的模型不会影响用户基于开源模型构建的应用质量。
你的选择只有两个:要么成为开源模型中的第一和领导者,要么成为后来者,晚些时候发布你的模型。
为什么成为开源模型的领导者?作为开源模型的领导者有很多好处,但最重要的是吸引人才。
GenAI的竞争是一场受制于计算能力的人才竞赛。你获得多少计算能力在很大程度上取决于与Nvidia的资金往来关系,除了Google。然而,你拥有多少人才又是另一回事。
根据埃隆·马斯克的说法,谷歌拥有三分之二的人工智能人才,为了抗衡谷歌的力量,他们成立了OpenAI。然后,一些最优秀的人才从OpenAI离职,成立了Anthropic,专注于人工智能的安全性。因此,这三家公司目前在市场上拥有最优秀和最多的人工智能专家。其他公司都非常渴望获得更多的人工智能专家。
成为开源模型的领导者将有助于Meta弥合AI专家之间的差距。开源模型通过两种不同的方式吸引人才。
首先,AI 领域的专家们都希望能在 Meta 工作。让全世界使用你构建的模型真是太酷了。这会让你的工作得到极大的曝光,放大你的专业影响力,并且对你的未来职业发展大有裨益。因此,许多有才华的人希望加入他们。
其次,社区中的AI专家为Meta免费做工作。Llama发布后不久,人们就开始对其进行实验。他们帮助你开发新的服务技术以降低成本,微调你的模型以发现新的应用场景,并仔细检查你的模型以发现漏洞,使其更安全。例如,根据这篇文章,在Llama首次发布的一个月内,他们完成了指令微调、量化、质量改进、人工评估、多模态和强化学习人机协作等工作。将这些工作委托给社区为Meta节省了大量的计算和人力资源。
与社区一起快速迭代。通过开源模型,Meta可以与社区快速迭代,直接将新开发的方法融入其中。
谷歌采用社区中的一种新方法需要花费多少成本?这个过程分为两个阶段:实现和评估。首先,他们需要为Gemini重新实现该方法。这包括将代码重写为JAX,这需要相当多的工程资源。在评估阶段,他们需要在一系列基准测试中运行该方法,这需要大量的计算能力。最重要的是,这需要时间。这使得他们在新技术刚刚出现时无法及时迭代。
相反,如果 Meta 想采用社区的新方法,这将不会花费他们任何费用。社区已经在 Llama 模型上直接进行了实验和基准测试,所以不需要进一步的评估。代码是用 PyTorch 编写的,他们可以直接复制粘贴到他们的系统中。
Llama 在 Meta 和社区之间建立了一个飞轮。Meta 从社区引入最新的技术,并向社区推出其下一代模型。PyTorch 是他们共同的语言。
他们还能赚钱吗?模型是开源的。人们难道不会自己构建自己的服务吗?为什么他们会愿意为Meta提供的基于开源模型的服务付费呢?当然,他们会自己构建。即使有开源模型,构建这样的服务也相当困难。
如何对模型进行微调和对齐以适应您的特定应用?如何在服务成本和模型质量之间取得平衡?您是否了解所有技巧以充分利用您的GPU?
知道这些问题答案的人雇佣起来很贵。即使有足够的人手,也很难获得足够的计算能力来微调和运行模型。想象一下从开源的Llama模型构建Meta AI有多难。我预计这需要数百名员工和GPU的参与。
所以,如果 Meta 未来有任何 GenAI 服务,人们很可能仍然会为其付费。
它就像开源软件,但又有所不同。这种情况与传统的开源软件非常相似。“免费代码收费服务”的框架仍然适用。免费的代码或模型可以吸引更多的用户加入生态系统。随着生态系统的扩大,所有者可以获得更多的收益。基于免费代码提供的服务则是盈利的。
然而,它也不像开源软件。主要区别可以总结为用户留存率低和一种新的生态系统类型。
低用户留存率开源模型的用户留存率较低。迁移到新模型比迁移到新软件要容易得多。
迁移软件很难。PyTorch 和 HuggingFace 已经建立了强大的深度学习框架和模型池生态系统。想象一下,如果你创建一个新的深度学习框架或模型池来与它们竞争,即使只是稍微动摇一下它们的主导地位也会有多难。
一个很好的例子是JAX。它在大规模分布式训练方面有更好的支持,但因为它的生态系统和社区较小,所以很难让用户上手使用JAX。它缺乏一个能够帮助用户解决问题的友好社区。此外,对于大多数公司来说,将整个基础设施迁移到新框架的工程成本太高。
开源模型没有这些问题。它们易于迁移,并且几乎不需要用户支持。因此,人们很容易转向最新和最好的模型。为了保持你在开源模型领域的领先地位,你必须不断发布排名靠前的新模型。这也被视为成为开源模型领导者的一个缺点或挑战。
一个新的生态系统类型开源模型创建了一种新的生态系统。与开源软件不同,开源软件创建了贡献者和在其基础上构建的新软件的生态系统,而开源模型则创建了经过微调和量化模型的生态系统,这些模型可以被视为原始模型的分支。
因此,开源的基础模型不需要在每个特定任务上都非常出色,因为用户会使用特定领域的数据对其进行微调以适应他们的应用。基础模型最重要的特性是满足用户的部署需求,例如推理时的低延迟或足够小以适应终端设备。
这就是为什么Llama为每个版本提供了多种大小。例如,Llama-3有三个版本:8B、70B和400B。他们希望确保能够覆盖所有部署场景。
概要即使 Meta 没有开源他们的模型,其他人也会这样做。因此,Meta 早点开源模型并引领开源模型的发展会是个明智的选择。这样一来,Meta 就可以与社区合作快速迭代,改进其模型,并迎头赶上 OpenAI 和 Google。
当你开源你的模型时,不必担心人们不会使用你的服务,因为基础模型和一个构建完善的服务之间仍然存在很大的差距。
开源模型与开源软件类似,它们都遵循“免费代码付费服务”框架,但在用户留存率和所创建的生态系统类型上有所不同。
在未来,我期望看到更多公司发布开源模型。与深度学习框架逐渐汇聚到PyTorch不同,开源模型将会长期保持多样性和竞争力。