开放人工智能 为开发人员提供了新的方法来构建可以与人交谈、理解语音、翻译实时对话以及将口语转换为文本的应用程序。该公司在其 Realtime API 中添加了三个新的音频模型: GPT Realtime 2、GPT Realtime Translate 和 GPT Realtime Whisper。
简单的想法很明确:应用程序开始更多地倾听和响应 就像一个人会的那样。 旅行应用程序可以帮助通过语音预订。支持应用程序可以用客户自己的语言回答客户。会议工具可以在人们仍在交谈时写笔记。
OpenAI 语音 API 获得三种新的音频模型
OpenAI 的新语音智能更新是围绕三个工具构建的。 GPT Realtime 2 专为 语音人工智能代理 可以跟随较长的谈话,处理更困难的请求,并在对话过程中使用工具。 GPT 实时翻译专为实时翻译而设计 语音翻译。 GPT Realtime Whisper 专为 实时语音到文本。
对于普通用户来说,这意味着未来的应用程序可能感觉不像在盒子里打字,而更像 大声寻求帮助。人们可以请求更改日程、产品答案、旅行更新或简短摘要,而无需切换到文本。
对于开发者来说,更新提供了更多 语音应用程序的构建块。这些工具可用于客户服务、教育、活动、媒体、创作者平台、销售、医疗保健、招聘以及其他经常进行口头对话的地方。
这意味着 OpenAI 正在更深入地推动应用程序、企业和日常用户的语音人工智能。
GPT Realtime 2 帮助 AI 语音代理处理实时任务
GPT Realtime 2 是此版本中的主要语音模型。它的设计目的是在人工智能处理请求、检查工具、处理更正并以自然的方式响应时保持对话继续进行。 OpenAI 表示还支持 更长的上下文,这有助于模型在较长的会话中记住更多。
这可以对语音应用程序产生很大影响。人们打断。他们改变了主意。他们忘记了细节。他们在句子的中间添加新信息。一个有用的语音代理需要遵循这一点 不会分崩离析。
OpenAI 还表示,该模型可以使用诸如“让我检查一下“在给出主要答案之前。这可能听起来很小,但它可以帮助用户知道应用程序仍在运行,而不是冻结或丢失。
GPT Realtime 2 的特点
- 处理实时语音对话
- 遵循更长的用户请求
- 支持通话期间使用工具
- 以自然的语音流回应
- 在不丢失上下文的情况下管理中断
GPT Realtime Translate 带来实时语音翻译
GPT 实时翻译专为实时多语言对话而构建。它支持超过 70 种输入语言和 13 种输出语言,这意味着一个人可以在同一次对话中用一种语言说话并听到另一种语言的答案。
这在许多简单的情况下可能很有用。客户可以用他们喜欢的语言致电支持人员。老师可以向混合班级解释一个主题。创作者可以与其他国家/地区的人分享视频,而无需 等待单独版本。
困难的部分不仅仅是将单词从一种语言更改为另一种语言。 真正的言语是混乱的。人们会停顿、改变话题、使用当地方言、并用不同的口音说话。该模型旨在跟上这种演讲的步伐,同时保持含义清晰。
GPT 实时翻译的特点
- 实时翻译语音
- 支持多种输入语言
- 帮助全球客户支持
- 对旅行和学习有用
- 让多语言对话更轻松
GPT Realtime Whisper 在人们说话时将语音转换为文本
GPT Realtime Whisper 是 OpenAI 的 新的流式语音到文本模型。 它会在一个人仍在说话时写下讲话内容,而不是等到整个对话结束。
这可以帮助 实时字幕、会议记录、课堂工具、活动记录和支持记录。它还可以帮助语音代理理解用户在较长对话中所说的内容。
主要价值是速度。当语音立即变成文本时,应用程序可以将该文本用于 摘要、跟进、记录或其他工作。当销售电话仍处于活动状态时,销售电话可能会产生注释。会议应用程序可以在人们离开之前记录决策。
GPT 实时耳语的特点
- 将语音实时转换为文本
- 帮助创建即时字幕
- 对于会议记录很有用
- 当人们说话时捕捉语音
- 将通话变成可搜索的记录
安全、定价和早期商业使用
OpenAI 表示,实时 API 包含安全系统,可帮助阻止滥用。该公司表示可以阻止某些对话 当检测到有害内容时,开发者可以添加自己的安全规则。 OpenAI 还表示,当用户与 AI 对话时,开发人员必须明确说明,除非情况已经表明这一点。
新型号已经由以下公司进行测试 Zillow、Priceline 和德国电信。路透社还将这三人列为测试模型的客户。
定价按型号划分。 GPT Realtime 2 开始于 32 美元 每百万个音频输入令牌和 64 美元 每百万音频输出令牌。 GPT 实时翻译费用 每分钟 0.034 美元。 GPT 实时耳语成本 每分钟 0.017 美元。
这些模型可在 OpenAI 的实时 API 中使用,并且可以在开发人员 Playground 中进行测试。
这对 OpenAI 意味着什么
此次更新将 OpenAI 推向更深入的语音 AI,这是应用程序需要感受的领域 快速、清晰且有用。 文本聊天仍然很重要,但对于那些不想输入或阅读长答案的人来说,语音可以让人工智能更容易使用。
它还让 OpenAI 在商业软件领域占据更强大的地位。 客户支持、旅行、销售、教育和会议 一切都取决于口头对话。如果开发人员使用这些模型构建强大的产品,OpenAI 将成为更多日常工作流程的一部分。
OpenAI 想要它 为 AI 提供动力的 API 可以实时听、说、翻译和提供帮助。这使得语音成为未来最重要的赌注之一。
结论
OpenAI 的新语音智能功能显示了人工智能应用程序的发展方向。重点是 不再仅限于聊天框。 开发人员现在可以构建在实时对话期间听、说、翻译、转录和完成任务的应用程序。
对于用户来说,改变可能很简单:更少的表单、更少的点击,以及 更自然的语音帮助。 对于开发人员和企业来说,此次更新开辟了更多方式来构建用于支持、旅行、学习、媒体、会议和日常工作的语音工具。
常见问题解答
OpenAI 为其语音 API 推出了什么?
OpenAI 为其 API 推出了三种新的音频模型:GPT Realtime 2、GPT Realtime Translate 和 GPT Realtime Whisper。这些模型是为实时使用语音的应用程序设计的。 GPT Realtime 2 可帮助语音代理通话并完成任务。 GPT 实时翻译有助于在实时对话期间翻译语音。 GPT Realtime Whisper 在人们说话时将语音转换为文本。它们共同为开发人员提供了更多方式来构建基于语音的应用程序,以用于支持、旅行、教育、媒体、活动和商业用途。
什么是 GPT 实时 2?
GPT Realtime 2 是 OpenAI 针对实时 AI 代理的新语音模型。它旨在理解口头请求、跟踪上下文、处理更正以及在对话期间使用工具。例如,用户可能要求旅行应用程序更改预订或要求房地产应用程序搜索房屋并安排访问。该模型可以在完成任务时通过语音做出响应。目标是让语音应用程序在正常的、不断变化的对话中变得更加有用。
GPT 实时翻译有什么作用?
GPT Realtime Translate 是一种实时语音翻译模型。它可以采用 70 多种输入语言的语音并生成 13 种输出语言的语音。这可以帮助人们在客户支持、教育、销售、活动、媒体和创作者工具中跨语言交谈。用户可以在同一次交流中用自己的语言说话并听到另一种语言的响应。它专为真实语音而设计,包括主题、口音和当地术语的变化。
GPT Realtime Whisper 有何用途?
GPT Realtime Whisper 是一种实时语音转文本模型。它记录人们仍在说话时所说的话。这可用于字幕、会议记录、课堂记录、事件记录、支持电话和业务工作流程。它还可以帮助人工智能语音代理在较长的对话中理解用户。主要好处是口头信息立即可用。应用程序可以保存它、总结它、搜索它或将它发送到另一个工作流程,而无需等待完整的调用结束。
谁可以使用 OpenAI 的新语音智能功能?
新的语音智能模型是为使用 OpenAI 实时 API 的开发人员打造的。企业可以使用它们来构建客户支持代理、旅行助理、会议工具、学习应用程序、媒体产品和实时翻译服务。 OpenAI 表示,这些模型可在 Realtime API 中使用,开发人员可以在 Playground 中测试它们。这些工具不仅适用于大公司。如果较小的团队正在构建需要语音、翻译或实时转录的应用程序,也可以使用它们。

