图片来自 OpenAI新闻页面
OpenAI 最近发布的 GPT-4o 为 AI 语言模型的新时代以及我们与它们的互动方式奠定了基础。
最令人印象深刻的部分是支持与ChatGPT进行实时互动,包括对话中断。
尽管在实时演示中出现了一些小问题,我对团队所取得的成就仍然感到非常惊讶。
最重要的是,演示结束后,OpenAI 允许访问 GPT-4o API。
在本文中,我将展示我对 GPT-4o vs. GPT 4 vs. Google 的 Gemini 和 Unicorn 模型的分类能力进行的独立分析,使用我创建的英语数据集。
这些模型中哪 ones 在英语理解上最强?(注意:此处的"ones"应根据上下文调整,此处直接翻译可能不太自然,建议根据实际情况调整为“哪些模型”)
更自然的翻译为:
这些模型中哪些在英语理解上最强?
图片来自 OpenAI 的实时演示 — 来源
最前沿的概念是 Omni模型 ,设计用于无缝理解和处理文本、音频和视频。
OpenAI 的重点似乎转向了 让大众也能获得 GPT-4 级别的智能,使得即使是免费用户也能访问到 GPT-4 级别的语言模型智能。
OpenAI 还宣布,GPT-4o 包括 超过50种语言的增强质量和速度,承诺提供更包容和全球可访问的AI体验,价格更便宜。
他们还提到,付费订阅者将获得比非付费用户五倍的容量。
此外,他们将发布 ChatGPT 的桌面版本,以便大众能够实现在音频、视觉和文本界面之间实时推理的功能。
新的 GPT-4o 模型遵循 OpenAI 的现有聊天完成 API,使其向后兼容且易于使用。
from openai import OpenAI OPENAI_API_KEY = "<your-api-key>" def openai_chat_resolve(response: dict, strip_tokens = None) -> str: if strip_tokens is None: strip_tokens = [] if response and response.choices and len(response.choices) > 0: content = response.choices[0].message.content.strip() if content is not None or content != '': if strip_tokens: for token in strip_tokens: content = content.replace(token, '') return content raise Exception(f'无法解析响应: {response}') def openai_chat_request(prompt: str, model_name: str, temperature=0.0): message = {'role': 'user', 'content': prompt} client = OpenAI(api_key=OPENAI_API_KEY) return client.chat.completions.create( model=model_name, messages=[message], temperature=temperature, ) response = openai_chat_request(prompt="你好!", model_name="gpt-4o-2024-05-13") answer = openai_chat_resolve(response) print(answer)
GPT-4o 也可以通过 ChatGPT 接口使用:
OpenAI 的博客文章包括了已知数据集(如 MMLU 和 HumanEval)的评估分数。
OpenAI 的博客文章包括了已知数据集(如 MMLU)的评估分数。
从图中我们可以看出,GPT-4o 的性能可以被归类为这一领域的最先进水平——考虑到新模型更便宜且更快,这听起来非常有前景。
然而,在过去的一年里,我见过多个声称在已知数据集上拥有最先进语言表现的模型。
实际上,这些模型中的一些已经在这些公开数据集上部分训练(或过拟合),导致在排行榜上出现了不切实际的分数。如果你想了解更多,可以参阅这篇论文。
因此,使用一些不太知名的數據集——比如我創建的那一個 😄——來獨立分析這些模型的性能是非常重要的。
正如我在之前的文章中解释的,我创建了一个主题数据集,我们可以用它来衡量不同LLM的分类性能。
该数据集包含 200个句子,归类于 50个主题 下,其中一些句子关系密切,旨在使分类任务更加困难。
我手动创建并标注了整个英文数据集。
然后我使用 GPT4 (gpt-4–0613) 将数据集翻译成多种语言。
然而,在这次评估中,我们只会评估 英语版本的数据集 — 这意味着结果不应受到使用相同语言模型创建数据集和预测主题所可能产生的偏见的影响。
去看看你自己检查一下数据集:主题数据集。
我决定评估以下模型:
任务是让语言模型将数据集中的每句话与正确的主题匹配。
这使我们能够为每种语言计算准确率得分以及每个模型的错误率。
由于这些模型大多能正确分类,所以我正在为每个模型绘制错误率。
记住,较低的错误率表示模型表现更好。
不同LLM的错误率的横向条形图
从图中我们可以看出,GPT-4o 的错误率最低,只有 2 个错误。
我们还可以看到,Palm 2 Unicorn、GPT-4 和 Gemini 1.5 的表现也非常出色,与 GPT-4o 十分接近。
有趣的是,GPT-4 Turbo 的表现与 GPT-4-0613 类似。可以查看 OpenAI 的 模型页面 以获取更多关于其模型的信息。
最后,Gemini 1.0 略显落后,考虑到其价格区间,这一点是可以预料的。
我最近发布了一篇文章,评估了 gpt4o 的多语言能力,并与 Claude Opus 和 Gemini 1.5 等其他大语言模型进行了比较。
文章链接 : https://medium.com/@lars.chr.wiik/claude-opus-vs-gpt-4o-vs-gemini-1-5-multilingual-performance-1b092b920a40
OpenAI 最先进LLM的多语言性能预览
我写了一篇文章,评估了GPT-4o和Gemini 1.5在使用“needle in the haystack”框架下如何记住上下文。可以通过下面的链接查看!
OpenAI 的 GPT-4o 与 Gemini 1.5 ⭐ 上下文记忆评估
https://medium.com/@lars.chr.wiik/openais-gpt-4o-vs-gemini-1-5-context-memory-evaluation-1f2da3e15526
此分析使用一个特别制作的英语数据集,揭示了这些先进语言模型的最新能力。
GPT-4o,OpenAI最新推出的产品,以其在测试模型中最低的错误率脱颖而出,这证实了OpenAI对其性能的主张。
AI社区和用户都必须继续使用多样化的数据集进行独立评估,因为这些评估有助于更清晰地展示模型的实际效果,而不仅仅是依赖标准化基准测试的结果。
注意,该数据集相当小,结果可能会因数据集的不同而有所不同。性能测试仅使用了英语数据集,而多语言对比则留待以后进行。
感谢阅读!
关注以在未来接收类似内容!
而且如果有任何问题,不要犹豫,随时联系!
通过我的文章,我分享关于LLMs和AI的前沿见解,提供实用的技巧和建议,并基于我的实际经验进行深入分析。此外,我还进行定制的LLMs性能分析,这是一个我认为在当今时代极其有趣和重要的主题。
我的内容适合任何对AI和LLMs感兴趣的人——无论你是专业人士还是爱好者!
如果这听起来有趣,就关注我吧!
联系我 :