必看：Open AI AMA 回答大量关于 o1 的关键性问题

歸藏的AI工具箱 · AI 科技自媒体 · 4 月前

主要观点总结

这篇文章介绍了OpenAI举办的关于OpenAI o1的AMA活动，分享了Tibor Blaho整理的关于o1模型的重要信息。文章涵盖了o1模型的特点、功能、定价、研究洞见等方面的内容。

关键观点总结

关键观点1: o1模型的特点

o1模型不是一个系统，而是一个经过系统训练的模型；具有多模态能力；CoT token不会被公开；提示可以影响模型思考问题的方式；使用强化学习来改善o1中的CoT。

关键观点2: o1模型的性能与规模

o1模型即将支持更大的输入上下文；在STEM任务中，o1-mini表现更好，但世界知识有限；o1模型的图标象征着一个具有非凡能力的外星生物。

关键观点3: 工具、功能和即将推出的特性

o1-preview目前不支持工具使用，但计划未来支持函数调用、代码解释器和网页浏览功能；用户可能在未来版本中获得对思考时间和token限制的控制权；计划在API中启用流式处理并考虑推理进度。

关键观点4: 思维链（CoT）推理

o1在推理过程中生成隐藏的思维链；提示中的指令可以影响模型如何思考问题；强化学习用于改善o1中的CoT；目前不计划向API用户或ChatGPT公开CoT token。

关键观点5: 定价、微调和扩展

o1模型的定价预计遵循每1-2年降价的趋势；模型微调功能在开发计划中，但没有具体时间表；o1的扩展主要受限于研究和工程人才；未来几代模型可能带来显著性能提升。

关键观点6: 模型开发和研究洞见

o1通过强化学习训练提高推理性能；模型展现出创造性思维，在哲学推理和泛化能力方面令人印象深刻；研究人员利用o1创建了一个GitHub机器人。

关键观点7: 提示技巧和最佳实践

o1受益于提供边缘案例或特定推理风格的提示方式；与早期模型相比，o1模型对提示中的推理线索更为敏感。

关键观点8: 一般反馈和未来改进

由于处于早期测试阶段，o1-preview目前的使用频率限制较低，但将会逐步提高；正在积极改进模型的响应延迟和推理时间。

关键观点9: 显著的模型能力

o1能够深入思考哲学问题，如“生命是什么”；在处理复杂任务和从有限指令中进行泛化方面表现出色；展示了强大的创造性推理能力。

正文

Open AI 举办了一个关于 Open AI o1 的 AMA。回答了非常多用户和开发者关注的o1 问题。

Tibor Blaho，爬了整个推特流^[1]然后总结了一下，跟大家分享一下总结后的内容，如果感兴趣可以去看吧 Open AI 的原始帖子^[2]。

这里是几个我觉得比较重要的点：

•强调 o1 不是一个“系统”而是一个经过系统训练的模型。•mini 在某些方面确实更好，只是世界知识不够多•o1 模型即将支持更大的输入上下文•o1 本身是有多模态能力的•CoT token 不会被公开•提示可以影响模型思考问题方式•强化学习 (RL) 用于改善 o1 中的 CoT，GPT-4o 无法仅通过提示匹配其 CoT 性能•正在为模型添加广泛的世界知识

模型名称和推理范式

•OpenAI o1 的命名代表了人工智能能力的新高度;计数器重置为 1•"Preview (预览版)"表示这是完整模型的早期版本•"Mini (迷你版)"意味着这是为提高速度而优化的 o1 模型的较小版本•o 代表 OpenAI•o1 不是一个"系统",而是一个经过训练的模型,能在给出最终答案前生成长链式思考•o1 的图标象征性地代表了一个具有非凡能力的外星生物

o1 模型的规模和性能

•o1-mini 比 o1-preview 小得多且速度更快,因此未来将向免费用户开放•o1-preview 是 o1 模型的早期检查点,规模介于两者之间•o1-mini 在科学、技术、工程和数学 (STEM) 任务中表现更好,但世界知识有限•与 o1-preview 相比,o1-mini 在某些任务中表现出色,尤其是与编程相关的任务•o1 的输入 token (标记) 计算方式与 GPT-4o 相同,使用相同的分词器•o1-mini 能够探索更多的思维链,相比 o1-preview

输入 Token 上下文和模型能力

•o1 模型即将支持更大的输入上下文•与 GPT-4o 相比,o1 模型可以处理更长、更开放式的任务,减少了对输入分块的需求•不同于之前的模型,o1 能在给出最终答案前生成长链式思考•目前还无法在思维链 (CoT) 推理过程中暂停以添加更多上下文,但这项功能正在为未来模型探索中

工具、功能和即将推出的特性

•o1-preview 目前还不支持工具使用,但计划未来支持函数调用、代码解释器和网页浏览功能•工具支持、结构化输出和系统提示将在未来更新中添加•用户可能在未来版本中获得对思考时间和 token 限制的控制权•计划在 API 中启用流式处理并考虑推理进度•o1 内置多模态能力,旨在实现多模态任务的最佳性能

思维链 (CoT) 推理

•o1 在推理过程中生成隐藏的思维链•目前没有计划向 API 用户或 ChatGPT 公开 CoT token•CoT token 会被总结,但不能保证完全忠实于实际推理过程•提示中的指令可以影响模型如何思考问题•强化学习 (RL) 用于改善 o1 中的 CoT,GPT-4o 无法仅通过提示匹配其 CoT 性能•思考阶段看似较慢是因为它需要总结思考过程,尽管实际答案生成通常更快

API 和使用限制

•ChatGPT Plus 用户每周可使用 o1-mini 50 次•在 ChatGPT 中所有提示的计数方式相同•更多层级的 API 访问权限和更高的使用频率限制将随时间推出•API 中的提示缓存是一个受欢迎的功能请求,但目前还没有具体实现时间表

定价、微调和扩展

•o1 模型的定价预计将遵循每 1-2 年降价的趋势•一旦使用频率限制提高,将支持批量 API 定价•模型微调功能在开发计划中,但目前还没有具体时间表•o1 的扩展主要受限于研究和工程人才•未来几代模型可能通过新的推理计算扩展方法带来显著性能提升•逆向扩展效应目前不明显,但在个人写作任务中,o1-preview 的表现仅略优于 GPT-4o (有时甚至略差)

模型开发和研究洞见

•o1 通过强化学习训练来提高推理性能•该模型展现了创造性思维,在诗歌等侧面任务中表现出色•o1 在哲学推理和泛化能力方面令人印象深刻,如破译密码•研究人员利用 o1 创建了一个 GitHub 机器人,可以自动通知合适的代码所有者进行审核•在内部测试中,o1 通过自我提问困难问题来评估自身能力•正在为模型添加广泛的世界知识,未来版本将进一步改进•计划在未来迭代中为 o1-mini 提供更新的训练数据 (目前截至 2023 年 10 月)

提示技巧和最佳实践

•o1 受益于提供边缘案例或特定推理风格的提示方式•与早期模型相比,o1 模型对提示中的推理线索更为敏感•在检索增强生成 (RAG) 中提供相关上下文可以改善性能;不相关的信息块可能会降低推理质量

一般反馈和未来改进

•由于处于早期测试阶段,o1-preview 目前的使用频率限制较低,但将会逐步提高•正在积极改进模型的响应延迟和推理时间

显著的模型能力

•o1 能够深入思考"生命是什么?"等哲学问题•研究人员发现 o1 在处理复杂任务和从有限指令中进行泛化方面表现出色•o1 展示了强大的创造性推理能力,如通过自我测试来评估自身能力,体现了其高水平的问题解决能力

References

[1] 爬了整个推特流: https://x.com/btibor91/status/1834686946846597281
[2] Open AI 的原始帖子: https://x.com/OpenAIDevs/status/1834608585151594537