OpenAI 最高性能模型的雷达图 ——(红色 GPT-4o,蓝色 GPT-4-turbo,绿色 GPT-4)
在本文中,我分析了OpenAI的GPT-4o与Anthropic的Claude 3 Opus和Google的Gemini 1.5的多语言性能。
我将展示各个大型语言模型在诸如西班牙语、德语、法语、葡萄牙语和俄语等语言以及一些小众语言中的表现。
注意:如果你对这类评估感兴趣,可以考虑关注我,以在未来接收类似的分析!
GPT-4o(“o”代表“全能”)是OpenAI最新发布的模型。这个名字反映了它能够处理多种形式的内容——文本、音频和视频。
它首先在速度上表现出色,设计上旨在通过快速的令牌预测将AI普及到大众。
除了速度之外,GPT-4o 在复杂任务和推理能力方面也表现出色。
此外,OpenAI还将发布一个桌面应用程序,用户可以通过音频与模型进行实时互动。
GPT-4o 当前的定价为 $5.00 / 1M 令牌,换算为:
来自OpenAI:1个token约等于4个英文字符 [来源]
谷歌的Gemini 1.5是Gemini系列的最新版本,从底层构建,具备多模态模型的能力,能够处理文字、图像、视频、音频和代码。
它无缝集成到谷歌生态系统中,例如 Gmail 和 G Suite 的其他部分——我们很快就会在每个谷歌产品中看到 AI 功能。
而且正如我们所知,谷歌以其提供的可扩展和可靠的服务而闻名,这在围绕LLM构建产品时尤为重要。
Gemini 将上下文大小不超过 128k 的价格调整为 $3.5 / 100 万个 token,换算成字符后为:
官方定价:$0.00125 / 1k 字符 [来源]
Anthropic的Claude 3 Opus专注于安全性和对齐,同时提供具有竞争力的语言性能。
具有低幻觉率,Claude 3 Opus 擅长英语和欧洲语言,并且在亚洲和小众语言方面也在不断改进。
它在准确处理非常长的文档方面表现出色——如果你希望获得最佳性能,它非常适合用于RAG应用。
然而,作为其高性能的副产品,它被认为成本高昂且略显缓慢。
Claude 3 Opus 当前的定价为 $15 / 1 million tokens,相当于:
对于Claude,一个token大约代表3.5个英文字符[来源]
基于闭源LLM API构建的可扩展应用程序维护成本可能很高。
在我们分析模型性能时,记得这些价格!
图片由ChatGPT提供 — 描述了一个LLM API从企业中吸走资金的插图
我使用了我在之前文章中描述的数据集进行评估框架——主题数据集。
对于不熟悉的读者,这里是对该数据集的简要回顾:
该数据集包含每种语言下200个句子,这些句子被分类为50个不同的话题(其中一些话题密切相关)。
我手动创建了英文数据集,并使用GPT-4将数据集翻译成多种语言。
任务是让语言模型将每个句子与正确的主题匹配,从而可以对每种语言的准确性进行测量。
首先,我想比较一下OpenAI最突出的模型——因为我读到过很多人对GPT-4o性能的抱怨。
鉴于GPT-4o的价格是GPT-4 Turbo的一半,且是GPT-4价格的六分之一,这种比较应该能提供有价值的见解。
我决定选择一些最突出的欧洲语言以及一些小众语言。如果你不熟悉语言代码,可以参见下面的表格:
Language Code to Language Map
第一步是运行评估框架以收集OpenAI所有模型每种语言代码的准确率分数。
然后我创建了一个雷达图来可视化每个LLM在每种语言代码上的表现。我个人认为,雷达图是展示这些性能差异最美观的方式。
OpenAI表现最佳模型的雷达图。注意,刻度从95%开始,到100%。
简单回顾一下雷达图的工作原理,性能更好的模型会延伸到边缘。而性能较差的模型则会保持在靠近中心的较小范围内。
从图中我们可以看出,GPT-4o 的表现通常优于 GPT-4 和 GPT-4-turbo,表明其整体性能更佳。
葡萄牙语是唯一一个在这次测试中GPT-4o表现不佳的语言——然而,由于数据集非常小,这种表现不佳在统计上并不显著,可能是由于随机变化或数据集中的特定挑战所致。
有趣的是,我们在俄语和芬兰语中看到了 GPT-4o 的显著性能提升。
注意:在我的机器学习工程师职业生涯中,我经常遇到优化芬兰语自然语言处理任务的问题,因为芬兰语是一种相对小众的语言——然而,看起来GPT-4o终于打破了这一模式!
在对比了OpenAI的顶级LLM之后,我选择了Claude 3 Opus和Gemini 1.5来比较它们与GPT-4o的表现。
这些模型真正地展示了在各种任务中顶尖的语言理解能力——并且都展示了强大的多语言能力。
我使用了之前比较中使用的相同评估框架。
这个框架对每个模型进行多种语言代码的测试,使我们能够为每种语言生成详细的性能概况。
让我们看看GPT-4o在竞争对手中的位置。
GPT-4o、Gemini 1.5 和 Claude 3 Opus 的雷达图。注意,刻度从 95% 开始,到 100% 结束。
如图所示,所有模型的表现都相当不错。需要注意的是,图表的刻度从95%的准确率开始,到100%。
这意味着这三种大语言模型在所有语言中的得分都在97.5%到100%之间——展示了出色的语言多语种能力。
然而,图表显示了一个趋势,即Anthropic的Claude 3 Opus在大多数语言中略占优势——这似乎是一致的。Claude 3 Opus仅在两种语言中表现不如Gemini,并且从未被GPT-4o击败。
Anthropic的Claude 3 Opus目前是不是最强的LLM?
是否值得花费六倍的费用来使用Claude 3 Opus而不是GPT-4o或Gemini 1.5?
请让我知道你的想法!
免责声明:如前所述,必须指出数据集相对较小。结果应仅被视为模型性能的指示,具体表现可能因应用场景而异。
在这个多语言评估中,对OpenAI的GPT-4o、Anthropic的Claude 3 Opus和Google的Gemini 1.5进行了评测,几个关键的洞察浮现出来。
GPT-4o 在广泛的语言范围内表现出色,始终优于 GPT-4 和 GPT-4 Turbo,尤其值得一提的是它的成本显著更低。
Gemini 1.5 展示了与 GPT-4 相当的性能。其具有竞争力的价格和可扩展性使其成为强有力的竞争者,尤其是对于已经使用谷歌产品套件的用户来说。
Claude 3 Opus 在大多数语言中展示了优越的性能。然而,这会带来更高的成本,企业在权衡性能和预算时可能会考虑这一点。
在选择这些模型时,应考虑成本、特定的语言需求以及更广泛的生态系统集成需求。
随着语言模型的发展不断演变,看看这些模型将如何进一步发展以及是否有全新的模型出现并挑战它们当前的能力和市场主导地位将会很有趣。
感谢阅读!
关注以在未来接收类似内容!
不要犹豫,如果有任何问题,请随时联系!
(如果你喜欢刚才读到的内容,请考虑给予支持,这对我来说意义重大 😊)
通过我的文章,我分享关于LLM和AI的前沿见解,提供实用的技巧和建议,并基于我的实际经验进行深入分析。此外,我还进行定制的LLM性能分析,我认为在这个时代这是一个极其有趣且重要的主题。
我的内容适合任何对AI和LLMs感兴趣的人——无论你是专业人士还是爱好者!
如果你觉得有趣,关注我!
联系我 :