OpenAI 新模型“草莓”来袭，o1-preview版本抢先看！

本文主要是介绍OpenAI 新模型“草莓”来袭，o1-preview版本抢先看！，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

OpenAI已经开始陆续发布其新的推理模型系列产品，用于解决棘手和复杂的问题。

OpenAI草莓 🍓来了！

什么是OpenAI的新o1模型，它们是如何思考的？OpenAI昨天发布了两个新的预览模型，o1预览版和o1迷你版，旨在花更多时间思考后再回应，声称这可以提高其处理复杂任务的推理能力。与旧模型不同，o1在回应之前会暂停思考。这段时间是为了解答更周到、准确的问题——特别是在数学、科学和编程等领域的难题。在最初关于有限发布的关注之后，o1现在至少部分可用。OpenAI正在根据实际互动收集用户反馈，从而不断优化模型。随着其更广泛的使用，可以期待持续改进。这个模型不只是生成文本，而是关于推理。通过o1，AI在解决问题方面迈上了更高的台阶，为各行各业的创新突破铺路。

🍓 难道强大的计算能力就是一切吗 🤣？这个新的 OpenAI O1 来了，据说在物理、生物和化学等领域的基准测试中，它的准确性已经超过了博士水平！

🧠 模型使用了一个“隐藏”的思维链过程，使其能够以更像人类的方式思考问题（这到底是什么意思啊 😅）
🕰️ 结果表明，这种更深层次的思考在测试时显著提高了性能，使得经过更长时间处理（10–20秒）后，结果更准确。
⛳ 模型分析任务所花费的时间越长，其结果往往就越强和准确。

📈 表现和基准测试
⛳编程：在 Codeforces 上排名位于第 89 个百分位，展示了高级的问题解决和编码能力。这不仅仅是生成代码，而是像专业人员一样解决复杂问题。想象一下拥有一个具备解决实际问题的能力的 AI 合作伙伴！
⛳数学：在美国数学奥林匹克中排名前 500，解决了 74% 的问题，超过了 GPT-4o 的表现。
⛳科学：在物理学、生物学和化学领域超越了博士级别的专家（GPQA 基准测试）。

💰价格通知: 对于开发者们，通过API来访问o1，每100万输入代币将花费15美元，每100万输出代币将花费60美元。为什么这么贵呢？因为它专门设计来解决复杂问题，相当于在为高级AI智能付费。

🔒 “推理输出”在用户界面和ChatGPT中被隐藏，但你仍需为这部分内容付费。

注意：目前不提供系统消息、实时流、工具调用、批量请求、图片输入等功能

💰 注：API访问仅限高级账户（至少花费1000美元）

📊 增加了输出令牌的上限（o1-preview 达到 32,768，o1-mini 达到 65,536），可能是为了更深入地思考。

OpenAI 还发布了 o1-mini ，这是一个更小、更快且更便宜的 o1-preview 模型，特别擅长编码任务。它比 o1-preview 便宜 80% ，对于那些需要强大推理能力但预算有限的开发者来说，它是一个很好的选择，不需要花费太多钱就能获得强大的推理能力。

汤姆·耶（Tom Yeh）的一个很好的可视化效果如下所示。OpenAI是如何训练草莓模型（o1）让模型花费更多时间进行思考的？这只是汤姆对这种模型可能如何训练的说明和推测。我认为这可能也是类似下面的方式。

💡在RLHF+CoT的情况下，不仅响应被输入奖励模型来获得一个分数，而且CoT令牌也被输入奖励模型，以更好地对齐LLM。而在传统的RLHF中，只有提示和响应被输入奖励模型来对齐LLM。

💡在推断时，模型总是先学会生成CoT标记，这可能长达30秒，然后再开始生成最终答案。这就是模型花更多时间思考的样子！

还有其他重要的技术细节还缺少，比如奖励模型的训练过程是怎样的，人类对“思考过程”的喜好是如何被获取的等等。

最后，作为免责声明，这段动画代表了汤耶（Tom Yeh）的最佳估计。我们目前无法验证其准确性，但希望观众能理解这一点。我们希望OpenAI的某人能出来纠正这个图表动画。因为如果有人这么做，我们都会从中获益！

参考资料:
您可以参考以下资料:

Credits (领英家族) : Jim Fan, Sonu Kumar, Philipp Schimid, Tom Yeh, Aishwarya
博客 : https://lnkd.in/ezAzb-Fp
https://openai.com/index/introducing-openai-o1-preview/

这篇关于OpenAI 新模型“草莓”来袭，o1-preview版本抢先看！的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

人工智能学习

OpenAI 新模型“草莓”来袭，o1-preview版本抢先看！

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯