首页   

OpenAI发布会:o1满血版API上线,4o实时语音API打骨折

夕小瑶科技说  · 科技创业 科技自媒体  · 4 天前

主要观点总结

OpenAI发布了新工具开发者大会直播内容概述,重点介绍了o1 API的更新、实时对话API的新功能、定价调整以及开发者工具包的更新。还提到了偏好微调、WebRTC支持等新功能。

关键观点总结

关键观点1: o1 API的更新

OpenAI发布了o1 API的更新,包括开放API调用、结构化输出、指定推理工作量大小等功能。这次更新的模型命名为o1-2024-12-17,是基于最新版本的o1训练。随着o1 API上线的还有一系列开发者需要的功能,如视觉功能、函数调用等。

关键观点2: 实时对话API的新功能

OpenAI更新了实时对话API,最大对话时长延长至30分钟。4o和4o mini模型也支持实时对话API。此外,WebRTC的支持使得构建跨平台的实时语音产品更加容易,只需几行Javascript代码就能添加实时功能。

关键观点3: 定价调整

OpenAI对o1和4o系列的定价进行了调整,降低了音频成本。以每百万个tokens为计量单位,4o mini的文本和音频成本大幅降低。

关键观点4: 开发者工具包的更新

OpenAI发布了新的Python、Go和Java的官方SDK工具包,支持实时对话API的调用。这使得开发者更方便地集成OpenAI的API到他们的应用中。

关键观点5: 其他更新

OpenAI还介绍了其他一些小而有用的更新,包括偏好微调、支持更广泛的平台等。


正文

OpenAI 预告说,Day9 是属于开发者的一天。所以我早早的搬着小板凳来看直播了~

果然,今天直播放了大活:

  • 满血版 o1 开放 API 调用

  • 更新实时对话 API;价格打骨折

  • 数个小更新:偏好微调、SDK 工具包

第一件大事,满血版 o1 开放 API 调用了,带着 20 万 tokens 的上下文长度、最大 10 万输出 tokens 长度。

这次 OpenAI 开放 API 的模型命名为 o1-2024-12-17,是基于两周前的 o1 满血版后训练的船新版本。日后可能还会继续更新。

随着 o1 API 一起上线的,还有一系列开发者需要的功能:

  1. 视觉功能。可以上传图像向 o1 提问。
  2. 函数调用。o1 可以无缝连接到外部数据和系统中。
  3. 结构化输出。o1 可以生成遵循 JSON 结构的响应,此前 OpenAI 还实现了 100% 输出能正确解析的 JSON 结构内容。
  4. 指定推理工作量大小。新增了一个 reasoning effort 功能,可以自行选择 o1 的“推理工作量”,有高中低三档。如果增加推理工作量,o1 推理用的 tokens 更多,适用于难度更高的工作;推理的时间也会增加,响应更慢。

(注意,推理用的 tokens 也按输出 tokens 计费哦)

  1. 开发者消息(Developer messages)。功能类似于此前的“系统提示词(system prompt)”。

跑分这方面,OpenAI 就只跟自家的模型对比了一下,我们直接看图:

定价这方面,o1 与 o1-preview 保持一致:

15 美元(大约 109.27 元)/百万输入 tokens;

60 美元(约 437.08 元)/百万输出 tokens;

7.5 美元(约 54.64 元)/百万缓存输入 tokens。

另一个重要的点,就是他们更新了 Realtime 实时对话 API,最大对话时长延长到了 30 分钟。

更新有两项内容:

  1. 现在 4o 和 4o mini 模型都支持实时对话 API,OpenAI 也对这两个模型进行了更新:

gpt-4o-realtime-preview-2024-12-17:128k 上下文长度,最大输出 4096 tokens。

gpt-4o-mini-realtime-preview-2024-12-17,上下文和最大输出长度同上。

定价方面,4o 的音频成本降低 60%,而 4o mini 更是低至 1/10。

现在的定价以每百万个 tokens 为计量)是:

4o:

  • 文本:输入 2.5 美元(约人民币 18.21 元),输出 10 美元(72.84 元),缓存输入 1.25 美元(9.1 元)。

  • 音频:输入 40 美元(291.38 元),输出 80 美元(582.76 元),缓存输入 2.5 美元(18.21 元)。

    (之前的音频输入和输出价格分别是 100 和 200 美元,确实降了很多)

4o mini:

  • 文本:输入 0.15 美元(1.09 元),输出 0.6 美元(4.37 元)。缓存输入 0.075 美元(0.55 元)。

  • 音频:输入 10 美元(72.84 元),输出 20 美元(145.69 元),缓存输入 0.3 美元(2.18 元)。

讲得更直观一点的话:

1000 个 tokens 相当于 750 个单词。用 4o mini 音频功能,假设语速是 150 个单词/分钟,那就是 200 个 tokens,全按输出 tokens 计算,每分钟才花费 3 分钱。

非实时的音频模型中,OpenAI 还更新了一个 gpt-4o-audio-preview-2024-12-17,定价与新的 4o 模型相同。

  1. 实时对话 API 可以使用 WebRTC 了。WebRTC 可以处理音频编码、流式传输、噪声抑制和拥塞控制,更容易构建跨平台构建和扩展实时语音产品。即使网速很差,也能实现流畅且响应迅速的交互。

甚至只需要几行 Javascript 代码,就能添加实时功能。

async function createRealtimeSession(localStream, remoteAudioEl, token{  
    const pc = new RTCPeerConnection();  
    pc.ontrack = e => remoteAudioEl.srcObject = e.streams[0];  
    pc.addTrack(localStream.getTracks()[0]);  
    const offer = await pc.createOffer();  
    await pc.setLocalDescription(offer);  
    const headers = { Authorization`Bearer ${token}`'Content-Type''application/sdp' };  
    const opts = { method'POST'body: offer.sdp, headers };  
    const resp = await fetch('https://api.openai.com/v1/realtime', opts);  
    await pc.setRemoteDescription({ type'answer'sdpawait resp.text() });  
    return pc;  
}  

(WebRTC 还是个谷歌支撑起来的开源项目。既狙击人家,又要拿人家成果用,OpenAI 你怎么回事……)

更低的定价,更轻便的搭建方式,意味着实时 API 更广泛的应用。在直播时,OpenAI 还暗示,未来实时 API 可能会整合到 AI 眼镜等随身工具里。感觉还是非常有可能实现的。

以及,还有几个小而有用的更新点:

  • 新的微调方式:偏好微调。

偏好微调(Direct Preference Optimization fine-tuning,简称 DPO),简单来说,就是增加一类输出风格的权重的同时,降低另一类输出风格的权重。

原理是向模型展示一个输入内容的两个输出结果,并告诉模型“哪个结果好,哪个结果不好”,从而让模型的输出风格更偏向效果好的那个。有点像推理模型中的奖励机制。

  • 实时对话 API 支持调用 Python SDK 工具包。

直接附上 github 地址:https://github.com/openai/openai-python

  • OpenAI 还更新了测试版的 Go 和 Java 的官方 SDK 工具包,再也不用去找第三方库了,泪目。

也是直接附上地址:

Java 库:https://github.com/openai/openai-java

Go 库:https://github.com/openai/openai-go

最后讲两个坏消息:

o1 的 API 调用目前仅开放给 OpenAI API 5 级用户(在 OpenAI 平台上消费超 1000 美元,约 7284 元人民币),后续逐渐向更多用户开放;

以及,Sora 和 200 美元/月的 o1 pro 模型,并没有开放 API。

当然,就目前 OpenAI API 上线的内容来看,已经完全够用了。

比起实时语音 API,我觉得 o1 的 API 更可能满足诸位开发者的需要。真正的 AI 革命,恰恰是 o1 与其他工具的无缝集成,甚至可以说是,它带来一个完全改写 agent 构建规则的新范式:

o1 负责思考、制定计划;小体量模型负责劳动、执行工作。

在一项工作中,最开始用 o1(会思考,但成本高的模型)进行长线思考、规划,制定一个详细的计划,然后将实际工作执行,分配给较小的模型们。随着 o1 API 的推出,这种工作方式只会越来越普遍、工作流程只会越来越简单。

如果把 AI 工作流成比作多米诺骨牌,那 o1 更像是多米诺骨牌的第一张。可能Agent时代就快要来了。

参考资料:
https://openai.com/index/o1-and-new-tools-for-developers/
https://platform.openai.com/docs/guides/reasoning
https://platform.openai.com/docs/guides/realtime-webrtc
https://x.com/hwchase17/status/1869086959010025799?s=46&t=1AUvwyftFbcog4yHzgnysw
https://x.com/_simonsmith/status/1869088212993655078?s=46&t=1AUvwyftFbcog4yHzgnys


© 2024 精读
删除内容请联系邮箱 2879853325@qq.com