OpenAI已经开始陆续发布其新的推理模型系列产品,用于解决棘手和复杂的问题。
什么是OpenAI的新o1模型,它们是如何思考的?OpenAI昨天发布了两个新的预览模型,o1预览版和o1迷你版,旨在花更多时间思考后再回应,声称这可以提高其处理复杂任务的推理能力。与旧模型不同,o1在回应之前会暂停思考。这段时间是为了解答更周到、准确的问题——特别是在数学、科学和编程等领域的难题。在最初关于有限发布的关注之后,o1现在至少部分可用。OpenAI正在根据实际互动收集用户反馈,从而不断优化模型。随着其更广泛的使用,可以期待持续改进。这个模型不只是生成文本,而是关于推理。通过o1,AI在解决问题方面迈上了更高的台阶,为各行各业的创新突破铺路。
🍓 难道强大的计算能力就是一切吗 🤣?这个新的 OpenAI O1 来了,据说在物理、生物和化学等领域的基准测试中,它的准确性已经超过了博士水平!
🧠 模型使用了一个“隐藏”的思维链过程,使其能够以更像人类的方式思考问题(这到底是什么意思啊 😅)
🕰️ 结果表明,这种更深层次的思考在测试时显著提高了性能,使得经过更长时间处理(10–20秒)后,结果更准确。
⛳ 模型分析任务所花费的时间越长,其结果往往就越强和准确。
📈 表现和基准测试
⛳编程:在 Codeforces 上排名位于第 89 个百分位,展示了高级的问题解决和编码能力。这不仅仅是生成代码,而是像专业人员一样解决复杂问题。想象一下拥有一个具备解决实际问题的能力的 AI 合作伙伴!
⛳数学:在美国数学奥林匹克中排名前 500,解决了 74% 的问题,超过了 GPT-4o 的表现。
⛳科学:在物理学、生物学和化学领域超越了博士级别的专家(GPQA 基准测试)。
💰价格通知: 对于开发者们,通过API来访问o1,每100万输入代币将花费15美元,每100万输出代币将花费60美元。为什么这么贵呢?因为它专门设计来解决复杂问题,相当于在为高级AI智能付费。
🔒 “推理输出”在用户界面和ChatGPT中被隐藏,但你仍需为这部分内容付费。
注意:目前不提供系统消息、实时流、工具调用、批量请求、图片输入等功能
💰 注:API访问仅限高级账户(至少花费1000美元)
📊 增加了输出令牌的上限(o1-preview 达到 32,768,o1-mini 达到 65,536),可能是为了更深入地思考。
OpenAI 还发布了 o1-mini ,这是一个更小、更快且更便宜的 o1-preview 模型,特别擅长编码任务。它比 o1-preview 便宜 80% ,对于那些需要强大推理能力但预算有限的开发者来说,它是一个很好的选择,不需要花费太多钱就能获得强大的推理能力。
汤姆·耶(Tom Yeh)的一个很好的可视化效果如下所示。OpenAI是如何训练草莓模型(o1)让模型花费更多时间进行思考的?这只是汤姆对这种模型可能如何训练的说明和推测。我认为这可能也是类似下面的方式。
💡在RLHF+CoT的情况下,不仅响应被输入奖励模型来获得一个分数,而且CoT令牌也被输入奖励模型,以更好地对齐LLM。而在传统的RLHF中,只有提示和响应被输入奖励模型来对齐LLM。
💡在推断时,模型总是先学会生成CoT标记,这可能长达30秒,然后再开始生成最终答案。这就是模型花更多时间思考的样子!
还有其他重要的技术细节还缺少,比如奖励模型的训练过程是怎样的,人类对“思考过程”的喜好是如何被获取的等等。
最后,作为免责声明,这段动画代表了汤耶(Tom Yeh)的最佳估计。我们目前无法验证其准确性,但希望观众能理解这一点。我们希望OpenAI的某人能出来纠正这个图表动画。因为如果有人这么做,我们都会从中获益!
参考资料:
您可以参考以下资料: