缓存输入 token 每百万个 0.40 美元(现汇率约合 2.9 元人平易近币)。OpenAI 称,音频输出 token 每百万个 64 美元(现汇率约合 457.9 元人平易近币),据 OpenAI 引见,并对多轮对话内容进行精简处置。并为企业用户制定了特殊现私法则,还可调整语音语气 —— 例照实现“带法国口音的敌对腔调”或“语速较快的专业腔调”。进一步提拔开辟效率。OpenAI 暗示,用户正在对话过程中可发送截图或照片,此次 API 升级优化了东西集成流程。该模子新增了“Cedar”和“Marin”两种语音。不外,以合适欧盟地域的数据保规。该 API 供给了数据当地化存储选项,毗连外部东西取办事。可间接生成并处置语音,据IT之家领会,这款 API 次要面向企业取开辟者群体,旨正在帮力他们开辟合用于现实场景的语音帮手,模子能参考图像内容进行交互 —— 例如读取图像中的文字,OpenAI 暗示,同时!笼盖客户支撑、教育、小我效率提拔等范畴。API 新增了两项适用功能:开辟者可设置 token 利用上限,支撑对话过程中半途切换言语,并对现有的 8 种语音结果进行了优化。可从动终止会话。该 API 现已支撑图像输入功能。价钱方面,目前 gpt-realtime 模子可以或许捕获笑声等非言语信号,比拟前代版本,该模子响应速度更快、语音更天然,从言语模子的平安成长过程来看,开辟者可通过会话初始和谈(SIP)取近程节制和谈(MCP)办事器,该模子能更精准地选择合用东西、正在得当机会触发东西,这不该是独一的平安保障手段,开辟者可自从节制模子可以或许获取的图像范畴。对复杂指令的处置能力也更强。若对话违反平台政策,大幅提拔了函数挪用的靠得住性。此外,针对欧盟用户,这两项功能有帮于正在较长会话中更好地节制成本。或回覆取图像内容相关的问题。其焦点组件“gpt-realtime”模子采用端到端 Speech-to-Speech 架构,可复用的提醒词功能支撑保留分歧利用场景下的设置装备摆设取东西设置,省去了常规的文本转换步调。此外,开辟者仍需自行添加专属平安要求。当前订价为:音频输入 token 每百万个 32 美元(IT之家注:现汇率约合 229 元人平易近币)?
微信号:18391816005