
OpenAI 正式发布了其实时 API,移除了其 Beta 标签,并推出了一款名为 gpt-realtime
的全新语音到语音模型。
同时,平台还启用了三大核心功能:模型上下文协议 (MCP) 工具支持、图像输入以及 SIP 电话呼叫。这意味着您现在可以在 Web、移动端或电话网络上运行真正生产级别的语音代理。
支持远程模型上下文协议 (MCP) 服务器 图像输入 通过会话发起协议 (SIP) 进行电话呼叫 可复用提示词
gpt-realtime
模型是与客户合作训练的,旨在出色地完成支持、个人助理和教育等真实世界的任务。
传统的语音处理流程是:第一个模型将语音转为文本,第二个模型进行思考,第三个模型再将文本转回语音。
与之不同的是,gpt-realtime
采用单一模型直接接收音频输入并产生音频输出。这大大减少了数据往返的次数,并保留了停顿、笑声和语调等细微的表达线索。它在以下方面表现更佳:
遵循指令 调用工具 自然、富有表现力的语音 理解线索(如笑声) 切换语言
智能化提升之处
该模型能够捕捉非语言线索(如笑声),在句子中途切换语言,并根据指令调整语调(例如,从干练专业切换到亲切有同理心)。
此外,该模型在识别其他语言(包括西班牙语、中文、日语和法语)中的字母数字序列(如电话号码、车辆识别码等)方面表现出更高的准确性。
在音频输入的推理能力方面,它在 Big Bench Audio 基准测试中得分高达 82.8%;在指令遵循能力方面,于 MultiChallenge 音频评估中达到 30.5%;而在使用音频提示进行函数调用方面,它在 ComplexFuncBench 上达到了 66.5%——所有这些指标均高于先前版本。
在直播演示中,团队展示了该模型的情感范围、在单次回复中的语言切换能力、对 10 美元退款上限的严格策略遵守,以及对一张儿童照片进行安全检查时的图像理解能力。
这些行为,例如逐字逐句地朗读脚本和重复长串的字母数字,正是新模型被训练来严格执行的任务。

面向开发者
从周四开始,实时 API 和新的 gpt-realtime
模型已向所有开发者开放。
MCP 工具即插即用
您只需将会话指向一个远程模型上下文协议服务器,平台便会自动为您连接工具调用。这意味着您可以在无需编写定制化连接代码的情况下,添加或更换功能。
语音会话中的图像输入
您可以将屏幕截图或照片附加到实时对话中,模型会根据其所见内容进行回答。平台将每张图像视为一条消息,而非视频流,因此您可以控制模型何时看以及看什么。
SIP 呼叫
您可以直接从实时 API 连接到电话网络、专用交换机 (PBX) 或桌面电话。这样,单个代理就能以相同的行为和策略处理网页语音和真实的电话线路。
异步函数调用
当工具在后台运行时,模型可以继续自然地对话。因此,长时间的数据库查询或第三方 API 调用不会导致对话停滞。
可复用提示词与更智能的上下文控制
您可以保存开发者消息和工具设置,然后设置令牌限制,以批量截断较早的对话轮次,从而在长时间通话中控制成本。
隐私与数据驻留
平台支持欧盟数据驻留,并且企业级隐私承诺适用于整个实时 API。内置的分类器可以主动中止有害会话,预设的声音也降低了个性化冒充的风险。
为何这对 API 用户很重要
您将获得更低的延迟,因为语音转文本和文本转语音之间不再有额外的转换环节; 您将获得更高的合规性,因为模型能严格遵循“请准确朗读此免责声明”这类精确指令; 您还将获得更丰富的交互,因为它能识别笑声、犹豫和多语言混合的对话轮次。
所有这些都让客户支持、辅导或销售电话的体验感觉不再那么机械化。
底层工作原理
音频被切成短块,并转化为模型可以处理的离散令牌。模型基于正在运行的数据流和最近的对话状态进行推理,然后生成音频令牌,客户端将其渲染为语音。正是这个单一循环,使得时机和韵律得以保留,而不会在文本往返中被扁平化。
函数调用的原理很简单:模型决定“我应该调用 get_shipping_quote
函数,参数为 zip=94016
”。
平台运行该函数,将结果作为数据返回,模型再将其融入到下一句口语回答中。借助新的异步设置,它可以在函数完成时继续聊天,然后在结果返回时将其整合进来。
MCP 本质上是一种通过服务器向模型暴露工具和数据的标准方式。因此,您无需在应用程序中进行硬编码集成,只需注册一个 MCP 服务器,实时会话便能发现并调用这些工具。这缩短了集成时间,并保持了代理的模块化。
SIP 是通用的网络电话协议。通过支持 SIP,代理可以拨打和接听真实的电话、转接到人工坐席或加入排队,而无需在中间设置第三方语音网关。
语音质量与控制
OpenAI 新增了两种声音,Cedar 和 Marin,并更新了现有的 8 种声音。现在,模型可以根据指令改变语速、语调和风格,例如「干练专业」或「亲切有同理心」,并且能够可靠地用多种语言重复长串的 ID 和代码。
成本与可用性
相较于之前的预览版,价格下调了 20%:音频输入为 万
您可以立即构建的应用
网站语音客服:它可以在支持通话期间查看用户截图,解释屏幕上的内容,通过 MCP 调用您的订单系统,并在进行更改前逐字朗读法律要求的脚本。这样一个项目现在需要的定制化工作更少,并且通话流程更顺畅,因为代理可以在工具运行时继续交谈。
单一应用的客户支持电话线路:因为同一个代理可以同时处理浏览器语音聊天和真实的 SIP 电话。它可以通过回读长串的字母数字来验证账户,并在对话触及策略边界时升级到人工处理。
辅导或教练助手:它可以在有助于学习者理解时,在句子中途混合使用多种语言,并根据请求调整语气。这一点在现场演示中通过快速的风格和语言切换得到了展示。
核心要点总结
实时 API 已全面可用,并搭载了 gpt-realtime
模型。单模型的语音到语音架构带来了更低的延迟和更丰富的细节;工具使用更强大且非阻塞;MCP、图像输入和 SIP 功能解锁了实际部署的潜力;价格下调了 20%,并为长会话提供了清晰的令牌控制机制。
如果您正在考虑是否尝试,可以从一个简单的流程开始:连接一个 MCP 工具,设置一个 SIP 入口点,并在多个会话中复用一个提示词。然后,在开启输入缓存的情况下,测量延迟和成本。您将能在一个下午之内对这个新架构有一个很好的了解。
OpenAI 同步发布其详尽的官方实时提示词指南
这份指南专为 gpt-realtime
设计,这是 OpenAI 在 API 中新推出的语音到语音模型。实时模型受益于一些不同于文本模型的独特提示词技巧。
结构化系统提示词:将系统提示词划分为清晰、带标签的段落,每个段落专注于一个单一目的,如角色、语气、上下文、发音、工具、规则、对话流程和安全。
明确角色与目标:明确陈述模型的角色和目标,使其始终清楚自己的身份以及成功的标准。
直接调整语音行为:通过设定目标长度(如 2 到 3 个句子)、调整语速指引(听起来更快但不仓促)以及严格锁定语言来防止切换,从而直接调整语音行为。
提供风格范例:提供简短的示例短语来锚定风格,然后增加多样性规则,以避免重复的开场白和确认语。
包含发音参考:为棘手的术语提供发音参考,并要求对数字、代码和 ID 进行逐字符或逐位数的复述,并设置确认循环。
收紧指令:通过消除歧义、定义术语、解决冲突以及使用批判性提示进行迭代来使指令更严谨。
确定性地处理不清晰的音频:仅对清晰的输入做出回应,当语音无法理解时,用相同的语言请求澄清。
精确指定工具:只列出真实可用的工具,说明何时使用或避免使用每种工具,并选择在调用前是说一段简短的开场白还是请求确认。
职责分离:如果您将职责划分为思考者和响应者,请要求响应者将思考者的文本重述为简短、自然、语音优先的回复。
组织对话状态:将对话组织为带有目标、指令、退出标准和示例短语的状态,从而使进展清晰且一致。
处理复杂场景:使用 JSON 状态机或动态更新会话规则和工具列表,以确保模型在每个阶段只看到相关的信息。
定义具体的上报触发器:例如安全问题、明确的人工请求、强烈的挫败感或重复失败(如 2 次失败的工具调用或 3 次连续的无输入事件)。
执行上报:当触发器被激活时,说一句简短中立的话,然后将对话转接给人工。
参考资料:https://openai.com/index/introducing-gpt-realtime/
youtube.com/watch?v=nfBbmtMJhX0
https://cookbook.openai.com/examples/realtime_prompting_guide
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!