人工智能学习

OpenAI 新模型“草莓”来袭,o1-preview版本抢先看!

本文主要是介绍OpenAI 新模型“草莓”来袭,o1-preview版本抢先看!,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

OpenAI已经开始陆续发布其新的推理模型系列产品,用于解决棘手和复杂的问题。

OpenAI草莓 🍓来了!

什么是OpenAI的新o1模型,它们是如何思考的?OpenAI昨天发布了两个新的预览模型,o1预览版和o1迷你版,旨在花更多时间思考后再回应,声称这可以提高其处理复杂任务的推理能力。与旧模型不同,o1在回应之前会暂停思考。这段时间是为了解答更周到、准确的问题——特别是在数学、科学和编程等领域的难题。在最初关于有限发布的关注之后,o1现在至少部分可用。OpenAI正在根据实际互动收集用户反馈,从而不断优化模型。随着其更广泛的使用,可以期待持续改进。这个模型不只是生成文本,而是关于推理。通过o1,AI在解决问题方面迈上了更高的台阶,为各行各业的创新突破铺路。

🍓 难道强大的计算能力就是一切吗 🤣?这个新的 OpenAI O1 来了,据说在物理、生物和化学等领域的基准测试中,它的准确性已经超过了博士水平!

🧠 模型使用了一个“隐藏”的思维链过程,使其能够以更像人类的方式思考问题(这到底是什么意思啊 😅)
🕰️ 结果表明,这种更深层次的思考在测试时显著提高了性能,使得经过更长时间处理(10–20秒)后,结果更准确。
⛳ 模型分析任务所花费的时间越长,其结果往往就越强和准确。

📈 表现和基准测试
⛳编程:在 Codeforces 上排名位于第 89 个百分位,展示了高级的问题解决和编码能力。这不仅仅是生成代码,而是像专业人员一样解决复杂问题。想象一下拥有一个具备解决实际问题的能力的 AI 合作伙伴!
⛳数学:在美国数学奥林匹克中排名前 500,解决了 74% 的问题,超过了 GPT-4o 的表现。
⛳科学:在物理学、生物学和化学领域超越了博士级别的专家(GPQA 基准测试)。

💰价格通知: 对于开发者们,通过API来访问o1,每100万输入代币将花费15美元,每100万输出代币将花费60美元。为什么这么贵呢?因为它专门设计来解决复杂问题,相当于在为高级AI智能付费。

🔒 “推理输出”在用户界面和ChatGPT中被隐藏,但你仍需为这部分内容付费。

注意:目前不提供系统消息、实时流、工具调用、批量请求、图片输入等功能

💰 注:API访问仅限高级账户(至少花费1000美元)

📊 增加了输出令牌的上限(o1-preview 达到 32,768,o1-mini 达到 65,536),可能是为了更深入地思考。

OpenAI 还发布了 o1-mini ,这是一个更小、更快且更便宜的 o1-preview 模型,特别擅长编码任务。它比 o1-preview 便宜 80% ,对于那些需要强大推理能力但预算有限的开发者来说,它是一个很好的选择,不需要花费太多钱就能获得强大的推理能力。

汤姆·耶(Tom Yeh)的一个很好的可视化效果如下所示。OpenAI是如何训练草莓模型(o1)让模型花费更多时间进行思考的?这只是汤姆对这种模型可能如何训练的说明和推测。我认为这可能也是类似下面的方式。

💡在RLHF+CoT的情况下,不仅响应被输入奖励模型来获得一个分数,而且CoT令牌也被输入奖励模型,以更好地对齐LLM。而在传统的RLHF中,只有提示和响应被输入奖励模型来对齐LLM。

💡在推断时,模型总是先学会生成CoT标记,这可能长达30秒,然后再开始生成最终答案。这就是模型花更多时间思考的样子!

还有其他重要的技术细节还缺少,比如奖励模型的训练过程是怎样的,人类对“思考过程”的喜好是如何被获取的等等。

最后,作为免责声明,这段动画代表了汤耶(Tom Yeh)的最佳估计。我们目前无法验证其准确性,但希望观众能理解这一点。我们希望OpenAI的某人能出来纠正这个图表动画。因为如果有人这么做,我们都会从中获益!

参考资料:
您可以参考以下资料:

  • Credits (领英家族) : Jim Fan, Sonu Kumar, Philipp Schimid, Tom Yeh, Aishwarya
  • 博客 : https://lnkd.in/ezAzb-Fp
  • https://openai.com/index/introducing-openai-o1-preview/
这篇关于OpenAI 新模型“草莓”来袭,o1-preview版本抢先看!的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!