OpenAI 重磅升級實時API：除了降價超50%，還推五種新語音- AI文章

作者：Eve Cole 更新時間：2025-02-15 16:48:01

OpenAI 近日宣布對其實時API 進行重要更新，推出了五種新的語音選項，並降低了緩存費用，旨在為開發者提供更經濟實惠的語音到語音應用解決方案。

今天，OpenAI 宣布對其實時API 進行更新，目前該API 仍處於測試階段。這次更新的亮點在於推出了五種新的語音選項，專為語音到語音應用而設計，同時還降低了相關的緩存費用，讓開發者在使用時更加經濟實惠。

在新推出的五種語音中，OpenAI 在X 上的一篇文章中展示了其中三種新聲音，Ash、Verse 和聽起來像英國的Ballad。這些聲音不僅更加生動和可調節，還能夠提供更自然的交流體驗。 OpenAI 在其API 文檔中提到，這項原生的語音到語音功能省去了中間的文本格式處理，從而實現了低延遲和更具細膩度的輸出。

不過，OpenAI 也提醒用戶，由於實時API 目前仍在測試階段，因此暫時無法提供客戶端的身份驗證。此外，實時音頻處理可能會受到網絡條件的影響，這也給大規模傳輸音頻帶來了挑戰。 OpenAI 指出，當網絡條件不穩定時，確保音頻可靠傳輸的確是一項艱鉅的任務。

OpenAI 在語音技術上的發展歷程也頗具爭議。今年三月，他們推出了“Voice Engine” 這一語音克隆平台，試圖與ElevenLabs 競爭，但僅對少數研究者開放。隨著GPT-4o 和語音模式的演示，OpenAI 在五月暫停了名為“Sky” 的語音使用，因為好萊塢女星斯嘉麗・約翰遜對此表達了不滿，認為其與她的聲音過於相似。

在九月份，OpenAI 為其付費訂閱用戶推出了ChatGPT 高級語音模式，包括ChatGPT Plus、Enterprise、Teams 和Edu 等用戶都可以使用。通過這種語音到語音的技術，企業可以更快速地生成實時響應，極大提升客戶服務的效率。

降低成本，超50%

關於實時API 的定價問題，OpenAI 在之前的發布中定價為分鐘音頻輸入0.06美元，音頻輸出0.24美元，這樣的費用對於開發者來說相對較高。不過，這次更新後，使用緩存的文本輸入費用將降低50%，而緩存的音頻輸入費用則高達80% 的折扣。

OpenAI 在開發者日中宣布了“Prompt Caching” 這一新功能，能夠將頻繁請求的上下文提示保存在模型的記憶中，從而減少生成響應時所需的token 數量。通過降低輸入價格，OpenAI 希望吸引更多的開發者使用其API。

此外，其他公司如Anthropic 也推出了類似的緩存功能，以提高其語音技術的吸引力。

劃重點:

新增五種自然語音，提升語音應用體驗

實時API 通過緩存降低輸入費用，開發者更划算

實時音頻處理受網絡條件影響，可靠性需關注

OpenAI 的這次更新不僅提升了語音技術的應用體驗，還通過降低成本吸引了更多開發者，進一步推動了語音技術的普及和發展。