OpenAI 近日宣布對其實時API 進行重要更新,推出了五種新的語音選項,並降低了緩存費用,旨在為開發者提供更經濟實惠的語音到語音應用解決方案。
今天,OpenAI 宣布對其實時API 進行更新,目前該API 仍處於測試階段。這次更新的亮點在於推出了五種新的語音選項,專為語音到語音應用而設計,同時還降低了相關的緩存費用,讓開發者在使用時更加經濟實惠。

在新推出的五種語音中,OpenAI 在X 上的一篇文章中展示了其中三種新聲音,Ash、Verse 和聽起來像英國的Ballad。這些聲音不僅更加生動和可調節,還能夠提供更自然的交流體驗。 OpenAI 在其API 文檔中提到,這項原生的語音到語音功能省去了中間的文本格式處理,從而實現了低延遲和更具細膩度的輸出。
不過,OpenAI 也提醒用戶,由於實時API 目前仍在測試階段,因此暫時無法提供客戶端的身份驗證。此外,實時音頻處理可能會受到網絡條件的影響,這也給大規模傳輸音頻帶來了挑戰。 OpenAI 指出,當網絡條件不穩定時,確保音頻可靠傳輸的確是一項艱鉅的任務。
OpenAI 在語音技術上的發展歷程也頗具爭議。今年三月,他們推出了“Voice Engine” 這一語音克隆平台,試圖與ElevenLabs 競爭,但僅對少數研究者開放。隨著GPT-4o 和語音模式的演示,OpenAI 在五月暫停了名為“Sky” 的語音使用,因為好萊塢女星斯嘉麗・約翰遜對此表達了不滿,認為其與她的聲音過於相似。
在九月份,OpenAI 為其付費訂閱用戶推出了ChatGPT 高級語音模式,包括ChatGPT Plus、Enterprise、Teams 和Edu 等用戶都可以使用。通過這種語音到語音的技術,企業可以更快速地生成實時響應,極大提升客戶服務的效率。
降低成本,超50%關於實時API 的定價問題,OpenAI 在之前的發布中定價為分鐘音頻輸入0.06美元,音頻輸出0.24美元,這樣的費用對於開發者來說相對較高。不過,這次更新後,使用緩存的文本輸入費用將降低50%,而緩存的音頻輸入費用則高達80% 的折扣。
OpenAI 在開發者日中宣布了“Prompt Caching” 這一新功能,能夠將頻繁請求的上下文提示保存在模型的記憶中,從而減少生成響應時所需的token 數量。通過降低輸入價格,OpenAI 希望吸引更多的開發者使用其API。
此外,其他公司如Anthropic 也推出了類似的緩存功能,以提高其語音技術的吸引力。
劃重點:
新增五種自然語音,提升語音應用體驗
實時API 通過緩存降低輸入費用,開發者更划算
實時音頻處理受網絡條件影響,可靠性需關注
OpenAI 的這次更新不僅提升了語音技術的應用體驗,還通過降低成本吸引了更多開發者,進一步推動了語音技術的普及和發展。