OpenAI可以让开发者构建实时语音应用程序——价格不菲

2025-08-11 07:45来源:本站

  

  

  OpenAI年度开发者日周三在旧金山举行,发布了大量产品和功能。此次发布会的焦点是该公司推出的实时应用程序编程接口(API)。

  开发人员可以在推理操作期间发送和接收口语输入和输出,或者使用生产大型语言模型(LLM)进行预测。人们希望这种类型的交互可以使人与语言模型之间的对话更加流畅、实时。

  这种能力也有很高的溢价。OpenAI目前为gpt - 40大型语言模型定价,该模型构成了实时API的基础,每百万输入文本标记2.50美元,每百万输出标记10美元。

  基于文本和音频标记,实时输入和输出成本至少是这个速率的两倍,因为gpt - 40需要两种输入和输出。使用实时API时,gpt - 40的输入和输出令牌的成本分别为每百万令牌5美元和20美元。

  

  对于语音代币,每百万音频输入代币的成本高达100美元,每百万音频输出代币的成本高达200美元。

  OpenAI指出,根据语音对话的标准统计数据,音频令牌的定价“相当于每分钟音频输入约0.06美元,每分钟音频输出约0.24美元。”

  

  OpenAI举例说明了如何将实时语音应用于生成式人工智能,包括给人提供建议的自动健康教练,以及可以与学生对话练习新语言的语言导师。

  在开发者大会期间,OpenAI提供了一种降低开发者总成本的方法,即使用快速缓存,即在之前提交给模型的输入上重用令牌。这种方法将gpt - 40输入文本令牌的价格降低了一半。

  周三还介绍了LLM“蒸馏”,它允许开发人员使用来自较大模型的数据来训练较小的模型。

  开发人员使用被称为“存储补全”的技术,捕捉OpenAI功能更强大的语言模型之一(如gpt - 40)的输入和输出。然后,这些存储的完井数据将成为“微调”较小模型(如gpt - 40 mini)的训练数据。

  OpenAI将蒸馏服务标榜为一种消除开发人员从大型模型中训练小型模型所需的大量迭代工作的方法。

  “到目前为止,蒸馏一直是一个多步骤、容易出错的过程,”该公司在博客中表示,“这需要开发人员手动协调跨不相关工具的多个操作,从生成数据集到微调模型和衡量性能改进。”

  蒸馏是OpenAI现有微调服务的补充,不同之处在于你可以使用更大模型的输入输出对作为微调数据。除了微调服务,该公司周三还增加了图像微调。开发人员提交图像数据集,就像他们提交文本一样,以使现有模型(如gpt - 40)更特定于任务或知识领域。

  外卖服务公司Grab就是一个例子。该公司使用真实的街道标志图像,让gpt - 40绘制公司的送货路线。OpenAI表示:“与基本的gpt - 40模型相比,Grab能够将车道数的准确性提高20%,将限速标志的定位提高13%,使他们能够更好地将以前的手动过程中的地图操作自动化。”

  定价基于将开发人员提交的每张图像分割成代币,然后将其定价为每百万输入代币3.75美元和每百万输出代币15美元,与标准微调相同。对于训练图像模型,每百万代币的成本为25美元。

边互网声明:未经许可,不得转载。