OpenAI 宣布为其 API 推出新的语音智能功能,旨在帮助开发人员创建能够实时对话、转录和翻译的交互式应用程序。新推出的 GPT-Realtime-2 模型基于 GPT-5 类推理构建,与前身 GPT-Realtime-1.5 相比,旨在处理更复杂的用户请求。

此外,OpenAI 还推出了 GPT‑Realtime‑Translate,为 70 多种输入语言和 13 种输出语言提供实时翻译服务。此功能旨在在对话过程中与用户保持同步。

另一个重大更新是 GPT-Realtime-Whisper 功能,它为实时交互提供实时语音到文本转录。 OpenAI 表示:“我们推出的模型将实时音频从简单的呼叫和响应转变为可以实际工作的语音界面:聆听、推理、翻译、转录,并在对话展开时采取行动。”

据 OpenAI 称,这些更新针对多个行业,包括客户服务、教育、媒体和活动。该公司指出,新功能还可能带来滥用风险,例如制造垃圾邮件或欺诈。为了缓解这种情况,OpenAI 实施了防护措施,旨在阻止违反有害内容准则的对话。

所有新的语音模型都是 OpenAI 实时 API 的一部分。计费结构有所不同,GPT-Realtime-Translate 和 GPT-Realtime-Whisper 按分钟计费,而 GPT-Realtime-2 根据代币消耗计费。

<小时/>

精选图片来源

  Google Gemini 月活跃用户数超过 7.5 亿